Les statistiques ne sont pas des mathématiques?


20

Est-ce que les statistiques sont mathématiques ou non?

Étant donné que ce sont tous des chiffres, principalement enseignés par les départements de mathématiques et que vous obtenez des crédits en mathématiques, je me demande si les gens ne le pensent pas à moitié en plaisantant quand ils le disent, comme dire que c'est une partie mineure des mathématiques ou simplement des mathématiques appliquées.

Je me demande si quelque chose comme les statistiques, où vous ne pouvez pas tout construire sur des axiomes de base, peut être considéré comme des mathématiques. Par exemple, la valeur , qui est un concept qui a été créé pour donner un sens aux données, mais ce n'est pas une conséquence logique de principes plus fondamentaux.p


10
Référence XKCD obligatoire: xkcd.com/435 . Quoi qu'il en soit, est-ce vraiment important?
nico

2
(i) Comment pourrions-nous quantifier ces choses? Ce n'est pas comme si cela avait fait l'objet d'une enquête! (ii) Les calculs impliquent presque toujours des chiffres, mais ce qui en fait des statistiques , à mon avis, ne se trouve généralement pas dans les calculs . (iii) Lorsque j'ai fait ma majeure en statistique de premier cycle, ce n'était pas au département de mathématiques. L'endroit où j'ai fait mon doctorat - sous deux statisticiens assez bien connus - n'était pas non plus un département de mathématiques. (iv) Je ne pense pas que ce soit une blague. Elle se rapporte à une idée très importante - que ce qui fait des statistiques des "statistiques" est davantage une manière de raisonner sur des types particuliers de problèmes.
Glen_b -Reinstate Monica

6
Je me sens obligé de donner une réponse courte, car je suis un ancien mathématicien pur (PhD et 3,5 ans de postdoc dans une sorte d'algèbre), et maintenant un statisticien appliqué ... eh bien, le genre de statistiques que vous apprenez pour les statistiques appliquées, comme " quand dois-je utiliser un test "ou quoi, pour un mathématicien, ressemble à un livre de recettes, pas comme les mathématiques. Mais, par exemple, les statistiques asymptotiques de van der Vaart sont définitivement un livre de mathématiques ... Il y a beaucoup de niveaux intermédiaires - certains d'entre eux ne sont pas bien peuplés, je pense qu'il n'y a pas assez de livres expliquant les statistiques avec beaucoup d'exemples réels et tous les mathématiques détails. t
Elvis

5
Je ne sais pas quoi faire de la déclaration, "la valeur , qui est un concept qui a surgi pour donner un sens aux données, mais ce n'est pas une conséquence logique de principes plus fondamentaux", je ne sais même pas si elle peut même être vrai ou faux. Il semble surtout provenir de lieux confus. p
gung - Réintégrer Monica

12
@Guy Par analogie, nous pourrions caractériser la chimie (une autre "discipline mathématique") comme la théorie de la distribution asymptotique et les algèbres C *. Faire cela est nominalement exact mais manque tellement complètement l'essence de ce qu'est la chimie et ses objectifs qu'aucun chimiste ne le reconnaîtrait. De même, contrastez votre caractérisation avec ce que disent les grandes sociétés professionnelles: les statistiques sont des mondes à part. "La science de l'apprentissage à partir des données et de la mesure, du contrôle et de la communication de l'incertitude." Pas une seule mention de probabilité là-bas.
whuber

Réponses:


15

Les mathématiques traitent des abstractions idéalisées qui (presque toujours) ont des solutions absolues, ou le fait qu'aucune solution de ce type n'existe peut généralement être décrit en détail. C'est la science de découvrir des conséquences complexes mais nécessaires à partir d'axiomes simples.

Les statistiques utilisent les mathématiques, mais ce ne sont pas les mathématiques. C'est une supposition éclairée. C'est le jeu.

La statistique ne traite pas des abstractions idéalisées (bien qu'elle en utilise certains comme outils), elle traite des phénomènes du monde réel. Les outils statistiques font souvent des hypothèses simplificatrices pour réduire les données du monde réel en désordre à quelque chose qui s'inscrit dans le domaine problématique d'une abstraction mathématique résolue. Cela nous permet de faire des suppositions éclairées, mais c'est vraiment tout ce que les statistiques sont: l'art de faire des suppositions très bien informées.

Envisagez de tester des hypothèses avec des valeurs de p. Disons que nous testons une hypothèse avec une signification , et après avoir recueilli des données, nous trouvons une valeur de p de 0,001 . Nous rejetons donc l'hypothèse nulle au profit d'une hypothèse alternative.α=0,010,001

Mais quelle est vraiment cette valeur p? Quelle est la signification? Notre statistique de test a été développée de telle sorte qu'elle soit conforme à une distribution particulière, probablement le t de Student. Sous l'hypothèse nulle, le centile de notre statistique de test observée est la valeur p. En d'autres termes, la valeur de p donne la probabilité que nous obtenions une valeur aussi éloignée de l'attente de la distribution (ou plus) que la statistique de test observée. Le niveau de signification est une valeur limite assez arbitraire: le fixer à équivaut à dire, "c'est acceptable si 1 répétition sur 100 de cette expérience suggère que nous rejetons le null, même si le null est en fait vrai. "0,01

La valeur de p nous donne la probabilité que nous observions les données disponibles étant donné que le zéro est vrai (ou plutôt, devenant un peu plus technique, que nous observons des données sous l'hypothèse nulle qui nous donne une valeur au moins aussi extrême de la statistique testée comme celle que nous avons trouvée). Si nous allons rejeter le nul, nous voulons que cette probabilité soit petite, pour s'approcher de zéro. Dans notre exemple spécifique, nous avons constaté que la probabilité d'observer les données que nous avons recueillies si l'hypothèse nulle était vraie n'était que de , nous avons donc rejeté la valeur nulle. C'était une supposition éclairée. Nous ne savons jamais vraiment avec certitude que l'hypothèse nulle est fausse en utilisant ces méthodes, nous développons simplement une mesure de la force avec laquelle nos preuves soutiennent l'alternative.0.1%

Avons-nous utilisé les mathématiques pour calculer la valeur de p? Sûr. Mais les mathématiques ne nous ont pas permis de conclure. Sur la base des preuves, nous avons formé une opinion éclairée, mais c'est toujours un pari. Nous avons constaté que ces outils étaient extrêmement efficaces au cours des 100 dernières années, mais les gens de l'avenir peuvent s'étonner avec horreur de la fragilité de nos méthodes.


6
La valeur de p n'est pas la probabilité que nous nous trompions lorsque nous rejetons l'hypothèse nulle, car cela dépend également de H1 qui n'entre pas dans le calcul de la valeur de p (bien illustré par i.stack.imgur.com/tStr4 .png - la probabilité que H0 se trompe et que le soleil ait explosé est plutôt inférieure à p = 1/36).
Dikran Marsupial

Pourriez-vous suggérer une meilleure interprétation linguistique simple de la valeur de p? "La probabilité que nous observions les données disponibles étant donné la valeur nulle est vraie" peut-être? J'ai déjà creusé beaucoup plus profondément dans l'exemple de valeur p que je ne le pensais. Mon intention était de faire un point sur les statistiques, pas de fournir un tutoriel sur l'interprétation des valeurs de p. Je ne veux pas trop dérailler. Merci de l'avoir signalé, en tout cas.
David Marx

2
La valeur de p est la probabilité d'un résultat au moins aussi extrême que celui observé si l'hypothèse nulle est vraie. Le point que le lien entre la plausibilité de l'hypothèse nulle et la valeur de p étant largement subjective, plutôt qu'une nécessité logique, est un bon point (+1). Je me suis demandé récemment si le test d'hypothèse fréquentiste est moins subjectif que l'approche bayésienne, où au moins la subjectivité est rendue plus explicite.
Dikran Marsupial

Je ne vois pas en quoi votre interprétation / définition de la valeur de p diffère de l'alternative que j'ai proposée dans mon dernier commentaire. Il y a certainement un certain degré de subjectivité dans les tests d'hypothèses fréquentistes, mais c'est le même genre de subjectivité qui est invoqué lors de l'interprétation d'un facteur de Bayes. Et ce n'est pas comme si le niveau de signification n'est pas communiqué (c'est-à-dire que la subjectivité est expliquée ici aussi), il est juste souvent choisi en fonction de la convention, alors qu'il y a généralement plus de réflexion dans le choix des prieurs bayésiens (informatifs).
David Marx

1
@David: Le "au moins aussi extrême" fait une grande différence - la probabilité de la valeur observée sous le zéro n'est pas en général la valeur p, même pour des statistiques de test discrètes où cela a du sens. Je sais que c'est tangentiel au point que vous soulevez, mais si Wikipédia peut faire les choses correctement, nous devrions pouvoir le faire sur Cross Validated.
Scortchi - Réintégrer Monica

10

Langue fermement dans la joue:

Einstein a apparemment écrit

Pour autant que les lois des mathématiques se réfèrent à la réalité, elles ne sont pas certaines; et pour autant qu'elles soient certaines, elles ne se réfèrent pas à la réalité.

donc la statistique est la branche des mathématiques qui décrit la réalité. ; o)

Je dirais que la statistique est une branche des mathématiques de la même manière que la logique est une branche des mathématiques. Cela inclut certainement un élément de philosophie, mais je ne pense pas que ce soit la seule branche des mathématiques où cela soit le cas (voir par exemple Morris Kline, "Mathematics - The Loss of Certainty", Oxford University Press, 1980).


2
La logique est-elle une branche des mathématiques? Y compris les logiques à trois valeurs et les logiques modales, ou tout simplement le calcul des prédicats de premier ordre? Toutes les sciences formelles sont-elles en quelque sorte des mathématiques?
Scortchi - Réintégrer Monica

Je considérerais l'étude de tout système de manipulation de symboles selon un ensemble de règles (par exemple les langages formels) comme une variété de mathématiques, alors oui, je suppose que je le ferais probablement. Le problème avec les étiquettes, c'est qu'elles ne sont pas toujours entièrement descriptives de tout ce à quoi elles s'appliquent (je ne dirais pas que j'étais exactement un mathématicien, un statisticien ou un informaticien, mais j'ai certains aspects des trois). De même, la même chose peut souvent être placée dans plus d'une hiérarchie, il n'y a donc peut-être pas de solution unique à la question!
Dikran Marsupial

Selon votre argument, les statistiques, en tant que description de la réalité, comprennent également la géométrie et la théorie des champs quantiques, mais elles n'incluent pas les tests d'hypothèses (car la plupart des hypothèses sont contrefactuelles - elles sont destinées à être falsifiées - et, par conséquent, ne le sont manifestement pas. "décrire la réalité").
whuber

La citation d'Einstein était la langue dans la joue, et n'était pas censée être prise au sérieux; Je suis sûr que ce n'est pas tout à fait ce qu'Einstein avait en tête!
Dikran Marsupial

5

Eh bien, si vous dites " quelque chose comme les statistiques, où vous ne pouvez pas tout construire sur des axiomes de base ", alors vous devriez probablement lire sur la théorie axiomatique de Kolmogorov de la probabilité. Kolmogorov définit la probabilité de manière abstraite et axiomatique comme vous pouvez le voir dans ce pdf à la page 42 ou ici au bas de la page 1 et des pages suivantes .

Juste pour vous donner un aperçu de ses définitions abstraites, il définit une variable aléatoire comme une fonction `` mesurable '' comme expliqué de manière plus `` intuitive '' ici: si une variable aléatoire est une fonction, alors comment définissons-nous une fonction d'un Variable aléatoire

Avec un nombre très limité d'axiomes et en utilisant les résultats de la théorie des mesures (encore une fois en mathématiques), il peut définir des concepts comme des variables aléatoires, des distributions, une probabilité conditionnelle, ... de manière abstraite et dériver tous les résultats bien connus comme la loi des grands nombres, ... à partir de cet ensemble d'axiomes. Je vous conseille de l'essayer et vous serez surpris de la beauté mathématique de celui-ci.

Pour une explication sur les valeurs p, je me réfère à: Une mauvaise compréhension d'une valeur p?


1
N'y a-t-il pas encore une distinction importante entre la théorie des probabilités (mathématiques) et son application aux problèmes d'inférence (statistiques)? Les approches bayésienne et fréquentiste montrent le même appareil mathématique ( typiquement, ou presque ) utilisé avec des concepts de probabilité assez différents.
Scortchi - Réintégrer Monica

@Scortchi: Je ne sais pas si les concepts de probabilité sont différents pour les fréquentistes et les bayésiens; voir stats.stackexchange.com/questions/230415/…

Je ne vois aucun désaccord entre mon commentaire et votre réponse à Y a-t-il une base mathématique pour le débat bayésien vs fréquentiste? . Par "appareil mathématique", j'entends ce qui découle des axiomes de Kolmogorov; par «concepts», j'entends les interprétations comme limitant la fréquence, le degré de croyance, etc.
Scortchi - Réintégrer Monica

3

Je n'ai aucune base rigoureuse ou philosophique pour répondre à cette question, mais j'ai souvent entendu la plainte «les statistiques ne sont pas des mathématiques» de la part de personnes, généralement des types physiques. Je pense que les gens veulent des garanties de certitude à partir de leurs calculs, et les statistiques n'offrent (généralement) que des conclusions probabilistes avec des valeurs p associées. En fait, c'est exactement ce que j'aime dans les statistiques. Nous vivons dans un monde fondamentalement incertain et nous faisons de notre mieux pour le comprendre. Et nous faisons un excellent travail, tout bien considéré.


2

C'est peut-être parce que je suis un plébéien et que je n'ai pas suivi de cours de mathématiques avancés, mais je ne vois pas pourquoi les statistiques ne sont pas des mathématiques. Les arguments ici et sur une question en double semblent argumenter deux points principaux pour expliquer pourquoi les statistiques ne sont pas des mathématiques * .

  1. Ce n'est pas exact / certain, et en tant que tel repose sur des hypothèses.
  2. Il applique des mathématiques aux problèmes et chaque fois que vous appliquez des mathématiques, ce n'est plus des mathématiques.

N'est pas exact et utilise des hypothèses

Les hypothèses / approximations sont utiles pour beaucoup de mathématiques.

Je crois que les propriétés d'un triangle que j'ai appris à l'école primaire sont considérées comme de vrais mathématiques, même si elles ne sont pas vraies en géométrie non élucidienne. Il est donc clair qu'un aveu des limites, ou énoncé d'une autre manière "en supposant que XYZ ce qui suit est valide", à une branche des mathématiques ne disqualifie pas la branche d'être des "vraies" mathématiques.

Je suis certain que le calcul serait considéré comme une pure forme de calcul, mais les limites sont l'outil central sur lequel nous l'avons construit. Nous pouvons continuer à calculer jusqu'à la limite, tout comme nous pouvons continuer à agrandir une taille d'échantillon, mais aucun ne donne un aperçu accru au-delà d'un certain seuil.

Une fois que vous appliquez les mathématiques, ce ne sont pas des mathématiques

La contradiction évidente ici est que nous utilisons les mathématiques pour prouver des théorèmes mathématiques, et personne ne prétend que prouver des théorèmes mathématiques n'est pas des mathématiques.

La déclaration suivante pourrait être que ce thing xn'est pas des mathématiques si vous utilisez des mathématiques pour obtenir un résultat. Cela n'a aucun sens non plus.

La déclaration avec laquelle je suis d'accord est que lorsque vous utilisez les résultats d'un calcul pour prendre une décision, la décision n'est pas mathématique . Cela ne signifie pas que l'analyse menant à la décision n'est pas mathématique .

Je pense que lorsque nous utilisons l'analyse statistique, tous les calculs effectués sont de vrais calculs. Ce n'est qu'une fois que nous remettons les résultats à quelqu'un pour interprétation que les statistiques quittent les mathématiques. En tant que tels, les statistiques et les statisticiens font de vraies mathématiques et sont de vrais mathématiciens. C'est l'interprétation faite par l'entreprise et / ou la traduction des résultats à l'entreprise par le statisticien qui n'est pas mathématique.

D'après les commentaires:

Whuber a dit:

Si vous deviez remplacer «statistiques» par «chimie», «économie», «ingénierie» ou tout autre domaine qui emploie les mathématiques (comme l'économie domestique), il semble qu'aucun de vos arguments ne changerait.

Je pense que la principale différence entre "chimie", "ingénierie" et "équilibrer mon chéquier" est que ces domaines utilisent simplement des concepts mathématiques existants . Je crois comprendre que des statisticiens comme Guass ont élargi le corps des concepts mathématiques. Je crois (cela peut être manifestement faux) que pour obtenir un doctorat en statistique, vous devez contribuer, d'une certaine manière, à élargir le corps des concepts mathématiques. Les candidats au doctorat en chimie / ingénierie n'ont pas cette exigence à ma connaissance.

La distinction que les statistiques contribuent au corps des concepts mathématiques est ce qui la distingue des autres domaines qui utilisent simplement des concepts mathématiques .


*: L'exception notable est cette réponse qui déclare effectivement que les limites sont artificielles pour diverses raisons sociales. Je pense que c'est la seule vraie réponse, mais où est le plaisir là-dedans? ;)


1
Si vous deviez remplacer «statistiques» par «chimie», «économie», «ingénierie» ou tout autre domaine qui emploie les mathématiques (comme l'économie domestique), il semble qu'aucun de vos arguments ne changerait. En tant que tel, il semble être sans substance.
whuber

Les doctorants en statistique ne doivent pas «contribuer au corps des concepts mathématiques». La plupart des doctorats en statistiques sont attribués pour leurs contributions à la méthodologie statistique et à la théorie statistique . (Peu de mathématiciens, le cas échéant, prêtent attention à la littérature statistique. Ce n'est tout simplement pas une bonne source d'idées mathématiques nouvelles ou fructueuses en général. Je ne fais pas ici référence à la littérature en théorie des probabilités.) De plus, les chimistes, les ingénieurs, les physiciens , etc. créent souvent (ou, généralement, recréent) des idées mathématiques dans leur travail; cela ne transforme pas automatiquement leurs domaines en branches des mathématiques.
whuber

@whuber C'est très intéressant. Il semble que je n'ai pas de jambe sur laquelle me tenir.
Erik

1
Pour mémoire, je n'ai pas diminué votre contribution. C'est un sujet sensible pour beaucoup - par exemple, de nombreux départements de mathématiques des collèges essaient toujours de traiter les statisticiens comme des mathématiciens, au détriment des deux - et il est donc susceptible de susciter de fortes réactions.
whuber

2
@whuber Je suis assez dur pour résister à quelques votes négatifs. :) Je pense que vous avez été respectueux à tout moment, alors ne vous en faites pas. En plus de voter est anonyme pour une raison. Pas besoin d'aller sur le dossier.
Erik

2

Les tests statistiques, les modèles et les outils d'inférence sont formulés dans le langage des mathématiques, et les statisticiens ont mathématiquement prouvé des livres épais de résultats très importants et intéressants à leur sujet. Dans de nombreux cas, les preuves fournissent une preuve convaincante que les outils statistiques en question sont fiables et / ou puissants.

La statistique et sa communauté ne sont peut-être pas assez «pures» pour les mathématiciens d'un certain goût, mais elles sont définitivement investies dans les mathématiques extrêmement profondément, et la statistique théorique est tout autant une branche des mathématiques que la physique théorique ou l'informatique théorique.


2
Salut Paul, comme tu dis, les statistiques sont pleines de jolis théorèmes et preuves (+1), il y a même une théorie axiomatique des probabilités, développée par Kolmogorov, comme je l'explique dans ma réponse.

-2

La «différence» repose sur: le raisonnement inductif contre le raisonnement déductif contre l' inférence. Par exemple, aucun théorème mathématique ne peut dire quelle distribution ou priorité vous pouvez utiliser pour vos données / modèle.

Soit dit en passant, les statistiques bayésiennes sont une zone axiomatisée.


Les mathématiques ont aussi besoin de raisonnement inductif ...
Elvis

@Elvis Oui, c'est pourquoi mon exemple ... Je suis sûr que vous savez qu'il n'y a pas de réponse générale à cette question ... J'ai édité la réponse, pour votre plaisir ...
Compay Segundo

Je ne comprends vraiment pas votre point.
Elvis

@CompaySegundo: Je ne suis pas sûr que vous ayez un point valable ici, au moins, il n'est pas clairement énoncé.
Quora Feans

1
@QuoraFea Je suis probablement trop ivre ...
Compay Segundo

-2

C'est peut-être une opinion très impopulaire, mais étant donné l'histoire et la formulation des concepts de la statistique (et de la théorie des probabilités), je considère la statistique comme une sous-branche de la physique .

En effet, Gauss a initialement formalisé le modèle de régression des moindres carrés dans les prévisions astronomiques. La majorité des contributions aux statistiques avant Fisher provenaient de physiciens (ou de mathématiciens hautement appliqués dont le travail serait appelé physique selon les normes d'aujourd'hui): Lyapunov, De Moivre, Gauss et un ou plusieurs Bernoullis.

Le principe primordial est la caractérisation des erreurs et des aléas apparents propagés à partir d'un nombre infini de sources de variation non mesurées. À mesure que les expériences devenaient plus difficiles à contrôler, les erreurs expérimentales devaient être formellement décrites et prises en compte pour calibrer la prépondérance des preuves expérimentales par rapport au modèle mathématique proposé. Plus tard, alors que la physique des particules se plongeait dans la physique quantique , la formalisation des particules sous forme de distributions aléatoires a donné un langage beaucoup plus concis pour décrire le caractère aléatoire apparemment incontrôlable des photons et des électrons.

Les propriétés des estimateurs telles que leur moyenne (centre de masse) et l'écart type (deuxième moment des écarts) sont très intuitives pour les physiciens. La majorité des théorèmes limites peuvent être vaguement connectés à la loi de Murphy, c'est-à-dire que la distribution normale limite est l'entropie maximale.

La statistique est donc une sous-branche de la physique.


5
Cette thèse est aussi invraisemblable qu'illogique. Comme le souligne Stephen Stigler dans ses livres, les psychologues, les économistes et la plupart des autres spécialistes des sciences sociales n'ont pas adopté les méthodes des physiciens avant un siècle en raison de doutes réels quant à leur applicabilité et leur interprétation. C'est une preuve prima facie que la statistique est bien plus qu'une branche de la physique. D'autres disciplines, allant de l'ingénierie à la biologie, emploient également des méthodes physiques et des théories physiques, mais cela n'en fait pas non plus des branches de la physique - du moins pas de manière significative ou perspicace.
whuber

L'intérêt de Bernoulli pour la probabilité ne vient-il pas du jeu plutôt que de la physique?
Dikran Marsupial

@whuber Comme pour mon domaine, la biostatistique, je suis parfaitement conscient que ces sciences appliquées existaient sous diverses formes avant leur identification distincte en tant que domaine scientifique. Je pense cependant que ces domaines ont été formellement précédés du domaine des statistiques lui-même. Ce n'est bien sûr pas le cas pour la physique. Le thème central de ces sciences appliquées est la formulation d'un processus comme modèle reliant un prédicteur à une réponse. Peut-être le langage des statistiques est-il né en partie de la nécessité de généraliser des concepts applicables à ces domaines.
AdamO

1
Vous pensez à Jacobus Bernoulli, auteur posthume de l' ars conjectandi (éd. Nicholaus Bernoulli, 1713). Probablement les dernières personnes qui semblaient être motivées par des problèmes de jeu étaient Pascal et Fermat en 1654, mais même alors, il semble qu'ils n'utilisaient certains problèmes de jeu (le "problème des points") qu'à titre d'exemple de motivation et non pas au centre de leur enquête. (L'érudition moderne trace en fait le problème des points de la loi islamique sur les contrats c. 1200.) Le dernier mathématicien notable qui était vraiment motivé par le jeu était probablement Cardano (1501-1576).
whuber

1
Diaconis le magicien ? Je ne confondrais pas le jeu avec le spectacle! Vous avez raison, mais vous pourriez reculer un peu mieux en suggérant que de nombreux "investisseurs" sont en fait des joueurs, d'où de nombreux théoriciens de la finance mathématique pourraient vraiment être motivés par cette forme de jeu. Juste une pensée ... Quoi qu'il en soit, il est clair qu'au moment où Huygens a publié son petit traité en 1657, les gens étaient en train de créer une théorie des probabilités (et des statistiques) pour des raisons beaucoup plus profondes et profondes que de faire mieux aux tables de jeu. .
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.