Comment les scientifiques ont-ils calculé la forme de la fonction de densité de probabilité de distribution normale?


36

C’est probablement une question d’amateur, mais je voudrais savoir comment les scientifiques ont conçu la forme de la fonction de densité de probabilité de distribution normale. En gros, ce qui me dérange, c’est que, pour quelqu'un, il serait peut-être plus intuitif que la fonction de probabilité de données normalement distribuées ait la forme d'un triangle isocèle plutôt que d'une courbe en cloche, et comment prouver à une telle personne que la fonction de densité de probabilité de toutes les données normalement distribuées ont une forme de cloche? Par expérience? Ou par une dérivation mathématique?

Après tout, que considérons-nous comme des données normalement distribuées? Les données qui suivent le modèle de probabilité d'une distribution normale ou autre chose?

Ma question est essentiellement la suivante: pourquoi la fonction de densité de probabilité de distribution normale a-t-elle une forme de cloche et pas une autre? Et comment les scientifiques ont-ils déterminé sur quels scénarios de la vie réelle la distribution normale pouvait être appliquée, expérimentalement ou en étudiant la nature de diverses données elle-même?


J'ai donc trouvé que ce lien était très utile pour expliquer la dérivation de la forme fonctionnelle de la courbe de distribution normale, et répondait ainsi à la question "Pourquoi la distribution normale a-t-elle l'air comme si c'était le cas et rien d'autre?". Un raisonnement époustouflant, du moins pour moi.


2
Consultez cette question - il est faux de prétendre que seule la distribution normale est en "forme de cloche".
Silverfish

11
La distribution normale a des propriétés statistiques d’importance vitale, qui en font un objet d’étude particulier et signifient également qu’elle apparaît souvent "de manière naturelle", par exemple en tant que cas limite d’autres distributions. Voir en particulier le théorème de la limite centrale . Cependant, ce n'est tout simplement pas la seule distribution qui culmine au milieu et a des queues de chaque côté. Les gens supposent souvent que de telles données sont normales car l'histogramme "a la forme d'une cloche", mais ma réponse liée montre qu'il existe de nombreuses autres distributions candidates pour de tels ensembles de données.
Silverfish

4
Notez que les statisticiens n'ont pas découvert la distribution normale en examinant de nombreux jeux de données et que la réalisation de cette fonction de densité était empiriquement bien adaptée à nombre d'entre eux. Comme vous vous le demandez dans votre question, il existe un processus d'investigation mathématique de certains problèmes de la théorie des probabilités, auquel la distribution normale "apparaît" comme réponse. Ceci est bien expliqué par exemple dans cette réponse ici .
Silverfish

3
Et fondamentalement, si quelqu'un me demandait de leur expliquer pourquoi la distribution normale était "normale", il faudrait que je leur explique l'histoire de la distribution normale qui est longue et complexe en soi, à partir de la distribution binomiale et ainsi de suite, et peut-être ensuite. prouver le théorème de la limite centrale et montrer que la distribution normale est applicable à l'étude de nombreuses situations de la vie réelle.
ahra

5
Vous pouvez visualiser la forme d'une distribution normale à l'aide de l' un de ces dispositifs astucieux appelés cartes de Galton. En réalité, il s’agit d’une distribution binomiale, mais, vous le savez, du théorème de la limite centrale.
Federico Poloni

Réponses:


21

" L'évolution de la distribution normale " de SAUL STAHL est la meilleure source d'informations pour répondre à peu près à toutes les questions de votre message. Je vais réciter quelques points pour votre commodité uniquement, car vous trouverez la discussion détaillée dans le document.

C'est probablement une question d'amateur

Non, c’est une question intéressante pour quiconque utilise des statistiques, car cela n’est traité en détail dans aucun cours standard.

En gros, ce qui me dérange, c’est que pour quelqu'un, il serait peut-être plus intuitif que la fonction de probabilité de données normalement distribuées ait la forme d'un triangle isocèle plutôt que d'une courbe en cloche, et comment prouver à une telle personne que la fonction de densité de probabilité de toutes les données normalement distribuées ont une forme de cloche?

Regardez cette image du papier. Il montre les courbes d'erreur que Simpson a établies avant la découverte de Gaussian (Normal) pour l'analyse de données expérimentales. Donc, votre intuition est sur place.

entrez la description de l'image ici

Par expérience?

Oui, c'est pourquoi ils ont été appelés "courbes d'erreur". L'expérience était des mesures astronomiques. Les astronomes ont lutté avec des erreurs de mesure pendant des siècles.

Ou par une dérivation mathématique?

Encore une fois, oui! Longue histoire courte: l'analyse des erreurs dans les données astronomiques a conduit Gauss à sa distribution (aka Normal). Ce sont les hypothèses qu'il a utilisées:

entrez la description de l'image ici

À propos, Laplace a eu recours à différentes approches et a également proposé sa distribution tout en travaillant avec des données astronomiques:

entrez la description de l'image ici

Voici une explication typique utilisée par un physicien (explication de Gerhard Bohm, Günter Zech, Introduction à la statistique et à l'analyse de données pour physiciens, p.85) pour expliquer pourquoi la distribution normale est entachée d'erreur de mesure dans l'expérience .

De nombreux signaux expérimentaux suivent très bien une distribution normale. Cela est dû au fait qu'elles consistent en la somme de nombreuses contributions et une conséquence du théorème de la limite centrale.


2
La référence Stahl répond à la question initiale sous l’angle sous lequel elle a été posée - c’est une très belle découverte.
Silverfish

44

Vous semblez supposer dans votre question que le concept de distribution normale existait avant l'identification de la distribution, et les gens ont essayé de comprendre ce que c'était. Je ne vois pas comment cela fonctionnerait. [Edit: il y a au moins un sens que nous pourrions considérer comme une "recherche d'une distribution" mais ce n'est pas "une recherche d'une distribution qui décrit beaucoup de phénomènes"]

Ce n'est pas le cas; la distribution était connue avant qu'on l'appelait la distribution normale.

comment prouver à une telle personne que la fonction de densité de probabilité de toutes les données normalement distribuées a la forme d'une cloche

La fonction de distribution normale est ce qui a ce qu’on appelle habituellement une "forme de cloche" - toutes les distributions normales ont la même "forme" (en ce sens qu’elles ne diffèrent que par leur échelle et leur emplacement).

Les données peuvent sembler plus ou moins «en forme de cloche» dans la distribution, mais cela ne les rend pas normales. Beaucoup de distributions non normales ont la même apparence "en forme de cloche".

La distribution réelle de la population à partir de laquelle les données sont tirées n’est probablement jamais vraiment normale, bien que ce soit parfois une approximation tout à fait raisonnable.

Ceci est généralement vrai de presque toutes les distributions que nous appliquons aux choses du monde réel - ce sont des modèles , pas des faits sur le monde. [Par exemple, si nous faisons certaines hypothèses (celles d'un processus de Poisson), nous pouvons déduire la distribution de Poisson - une distribution largement utilisée. Mais ces hypothèses sont-elles jamais exactement satisfaites? Généralement, le mieux que nous puissions dire (dans les bonnes situations) est qu’elles sont presque vraies.]

Que considérons-nous réellement comme des données normalement distribuées? Les données qui suivent le modèle de probabilité d'une distribution normale, ou autre chose?

Oui, pour être effectivement distribuée normalement, la population à partir de laquelle l'échantillon aurait été créé devrait avoir une distribution qui présente exactement la forme fonctionnelle d'une distribution normale. En conséquence, aucune population finie ne peut être normale. Les variables qui doivent nécessairement être délimitées ne peuvent pas être normales (par exemple, les temps pris pour des tâches particulières, la longueur de choses particulières ne peuvent pas être négatives et ne peuvent donc pas être distribuées normalement).

il serait peut-être plus intuitif que la fonction de probabilité de données normalement distribuées ait la forme d'un triangle isocèle

Je ne vois pas pourquoi c'est nécessairement plus intuitif. C'est certainement plus simple.

Au début de l’élaboration de modèles de distribution d’erreurs (en particulier pour l’astronomie au début de la période), les mathématiciens ont envisagé diverses formes en relation avec les distributions d’erreur (y compris une distribution triangulaire), mais dans la plupart des travaux, il s’agissait de mathématiques ( que l'intuition) qui a été utilisé. Laplace a étudié les distributions doubles exponentielles et normales (parmi plusieurs autres), par exemple. De même, Gauss a utilisé les mathématiques pour le calculer à peu près au même moment, mais par rapport à un ensemble de considérations différent de celui de Laplace.

Dans le sens étroit où Laplace et Gauss envisageaient des "distributions d'erreurs", on pourrait considérer qu'il s'agissait d'une "recherche d'une distribution", du moins pour un temps. Les deux postulaient des propriétés pour une distribution d’erreurs qu’ils considéraient importantes (Laplace considérait une séquence de critères quelque peu différents dans le temps) conduisait à des distributions différentes.

Ma question est essentiellement la suivante: pourquoi la fonction de densité de probabilité de distribution normale a-t-elle une forme de cloche et pas une autre?

La forme fonctionnelle de la chose appelée fonction de densité normale lui donne cette forme. Considérons la norme normale (pour simplifier; chaque autre normale a la même forme, ne différant que par son échelle et son emplacement):

FZ(z)=ke-12z2;-<z<

k

X

Bien que certaines personnes aient considéré la distribution normale comme "habituelle", ce n’est vraiment que dans certains ensembles de situations que vous avez même tendance à la considérer comme une approximation.


La découverte de la distribution est généralement attribuée à de Moivre (approximation du binôme). Il a en fait dérivé la forme fonctionnelle en essayant d'approximer les coefficients binomiaux (/ probabilités binomiales) pour approcher des calculs fastidieux, mais - bien qu'il dérive effectivement la forme de la distribution normale - il ne semble pas avoir pensé à son approximation comme un distribution de probabilité, bien que certains auteurs suggèrent qu'il l'a fait. Une certaine interprétation est nécessaire afin de permettre des différences dans cette interprétation.

Gauss et Laplace y travaillèrent au début des années 1800; Gauss en écrivit en 1809 (en relation avec le fait qu'il s'agisse de la distribution pour laquelle la moyenne est la MLE du centre) et Laplace en 1810, en tant qu'approximation de la distribution des sommes de variables aléatoires symétriques. Dix ans plus tard, Laplace donne une première forme du théorème de la limite centrale, pour les variables discrètes et continues.

Les premiers noms de la distribution incluent la loi de l'erreur , la loi de la fréquence des erreurs , et il a également été nommé d'après Laplace et Gauss, parfois conjointement.

Le terme "normal" a été utilisé pour décrire la distribution indépendamment par trois auteurs différents dans les années 1870 (Peirce, Lexis et Galton), le premier en 1873 et les deux autres en 1877. Cela fait plus de soixante ans après les travaux de Gauss et Laplace et plus du double depuis l'approximation de De Moivre. Son utilisation par Galton était probablement la plus influente, mais il utilisa le terme "normal" par rapport à lui une seule fois dans cette œuvre de 1877 (l'appelant principalement "la loi de la déviation").

Cependant, dans les années 1880, Galton utilisa l'adjectif "normal" en rapport avec la distribution (par exemple, comme "courbe normale" en 1889), et influença à son tour les statisticiens britanniques (notamment Karl Pearson ). Il n'a pas expliqué pourquoi il avait utilisé le terme "normal" de cette manière, mais l'a probablement interprété dans le sens de "typique" ou "habituel".

La première utilisation explicite de l'expression "distribution normale" semble être celle de Karl Pearson; il l'utilise certainement en 1894, bien qu'il affirme l'avoir utilisé bien avant (une affirmation que je considérerais avec une certaine prudence).


Les références:

Miller, Jeff
"Premières utilisations connues de certains termes de mathématiques:"
Distribution normale (Entrée de John Aldrich)
http://jeff560.tripod.com/n.html

Stahl, Saul (2006),
"L'évolution de la distribution normale",
Mathematics Magazine , Vol. 79, n ° 2 (avril), p. 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

Distribution normale, (1er août 2016).
Dans Wikipedia, l'encyclopédie libre.
Récupéré le 3 août 2016 à 12 h 02 dans
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History.

Hald, A (2007),
"Approximation normale de De Moivre au binôme, 1733 et sa généralisation",
dans: Une histoire de l'inférence statistique paramétrique de Bernoulli à Fisher, 1713-1935; pp 17-24

[Vous pouvez noter des divergences substantielles entre ces sources par rapport à leur compte de Moivre]


Merci pour la réponse en profondeur! J'ai étudié plus en détail la façon dont la forme de la distribution normale a été obtenue et j'ai trouvé ce document cours.ncssm.edu/math/Talks/PDFS/normal.pdf , et j'ai du mal à comprendre comment on peut supposer que les erreurs ne dépendent pas de l'orientation du système de coordonnées (hypothèse permettant une conclusion importante par la suite), lorsqu'il me semble qu'une telle hypothèse ne serait valable que dans l'exemple des fléchettes, mais pas dans l'exemple des erreurs expérimentales accidentelles .
ahra

En fait, l’approche globale des fléchettes me perturbe car j’étudie la distribution normale dans le contexte d’erreurs expérimentales accidentelles. J'imagine que l'approche par les fléchettes suppose que vous pouvez commettre des erreurs indépendantes à deux dimensions, ce qui est correct dans le contexte utilisé mais ne me permet pas de savoir ce que cela traduirait dans le contexte d'erreurs expérimentales où vous avez une variable dépendante et une variable indépendante. ce qui signifie que vous ne pouvez commettre d'erreur que dans une seule dimension.
ahra

1
Grand usage de références. +1
Aaron Hall

2
Je pense que le "théorème limite central" devrait être mentionné ici quelque part, car le PO semble (du moins en partie) demander pourquoi cette distribution particulière est si répandue.
Joc

1
@joc Je ne vois pas la question poser sur la prévalence ni même suggérer une question à ce sujet. Cependant, je parle des travaux de Moivre relatifs au binôme et de ceux de Laplace relatifs aux approximations normales pour les sommes de variables aléatoires symétriques ... qui sont plus directement liées à la question. Cependant, j'ajouterai une phrase relative au travail de Laplace sur le problème (même si on ne l'appellera pas ainsi avant un siècle).
Glen_b -Reinstate Monica

11

La distribution "normale" est définie comme étant cette distribution particulière.

La question est de savoir pourquoi nous nous attendrions à ce que cette distribution particulière soit de nature commune et pourquoi est-elle si souvent utilisée comme approximation même lorsque les données réelles ne suivent pas exactement cette distribution? (Les données réelles ont souvent une "grosse queue", c'est-à-dire que les valeurs éloignées de la moyenne sont beaucoup plus courantes que la distribution normale ne le prédisait).

En d'autres termes, quelle est la particularité de la distribution normale?

La normale a beaucoup de "bonnes" propriétés statistiques (voir par exemple https://en.wikipedia.org/wiki/Central_limit_theorem ), mais l’OMI la plus pertinente est le fait que cette fonction est la "entropie maximale" pour toute distribution avec une moyenne et une variance données. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

Pour exprimer cela en langage ordinaire, si on ne vous donne que la moyenne (point central) et la variance (largeur) d'une distribution, et que vous n'assumez rien d'autre à ce sujet, vous serez forcé de dessiner une distribution normale. Tout le reste nécessite des informations supplémentaires (au sens de la théorie de l'information de Shannon ), par exemple l'asymétrie, pour le déterminer.

Le principe d’entropie maximale a été introduit par ET Jaynes afin de déterminer les a priori raisonnables dans l’inférence bayésienne, et je pense qu’il a été le premier à attirer l’attention sur cette propriété.

Voir ceci pour une discussion plus approfondie: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf


6
"En d'autres termes, si vous ne recevez que la moyenne (point central) et la variance (largeur) d'une distribution, et que vous n'assumez rien d'autre à ce sujet, vous serez forcé de dessiner une distribution normale." Je suppose que cela dépend de la définition de "forcé". Vous pouvez être forcé. Je ne serais pas. Ce que vous avez décrit est l’équivalent moral d’être «obligé» de supposer qu’une fonction est linéaire lorsque vous ne connaissez pas sa forme, ou que des variables aléatoires sont indépendantes lorsque vous ne connaissez pas leur dépendance exacte. Je n'ai pas, ne suis pas, et ne sera pas obligé de faire aucune de ces hypothèses.
Mark L. Stone

5
@Neil Je crois que le point de vue de Mark peut être que la justification n'est pas une contrainte.
whuber

5
@ Neil Loin de là! Tout d'abord, vous devez supposer que le principe d'entropie maximale est utile et applicable à votre problème statistique. Ensuite, vous devez être absolument certain que rien ne peut être supposé au sujet de la distribution. Les deux sont problématiques. (Dans la plupart des problèmes statistiques que j'ai rencontrés - en dehors du domaine de la physique théorique - le premier n'a pas été vrai; et je n'ai jamais vu de problème du monde réel où ce dernier est le cas.)
whuber

1
Neil Mark et Whuber. J'ai essayé de clarifier ce paragraphe. Je pense que "ne rien supposer d'autre" est une explication raisonnable en langage ordinaire de ce que le principe d'entropie maximale tente de faire. Étant un langage ordinaire, vous pouvez bien sûr donner une interprétation différente. C'est pourquoi nous avons besoin de maths. La déclaration la plus précise est que nous n’ajoutons aucune information, au sens de Shannon. Les liens expliquent cela plus loin.
Gareth

1
@gareth une distribution uniforme sur tous les réels (ce que je pense que vous avez voulu dire dans votre dernier commentaire) serait une distribution très inappropriée. Votre affirmation d’entropie maximale en tant que moteur d’une distribution normale constitue une hypothèse majeure; pourquoi est-il plus puissant que de supposer autre chose, comme une portée minimale?
Henry

3

La distribution normale (ou " distribution gaussienne ") repose sur une base mathématique solide. Le théorème de la limite centrale dit que si vous avez un ensemble fini de n variables aléatoires indépendantes et identiquement distribuées ayant une moyenne et une variance spécifiques, et que vous prenez la moyenne de ces variables aléatoires, la distribution du résultat convergera vers une distribution gaussienne sous la forme n va à l'infini. Il n’ya pas de doute ici, puisque la dérivation mathématique conduit à cette fonction de distribution spécifique et à aucune autre.

Pour exprimer cela de manière plus concrète, considérons une seule variable aléatoire, telle que lancer une pièce de monnaie équitable (2 résultats également possibles). Les chances d'obtenir un résultat particulier sont de 1/2 pour les têtes et de 1/2 pour les queues.

Si vous augmentez le nombre de pièces et gardez une trace du nombre total de têtes obtenues à chaque essai, vous obtiendrez une distribution binomiale , qui a une forme de cloche approximative. Il vous suffit de représenter graphiquement le nombre de têtes le long de l'axe des x et le nombre de fois que vous avez retourné autant de têtes le long de l'axe des y.

Plus vous utilisez de pièces de monnaie et plus vous les retournez, plus le graphique ressemblera à une courbe en cloche gaussienne. C'est ce que le théorème de la limite centrale affirme.

La chose étonnante est que le théorème ne dépend pas de la façon dont les variables aléatoires sont réellement distribuées, du moment que chacune des variables aléatoires a la même distribution. Une idée clé dans le théorème est que vous ajoutez ou calculez la moyenne des variables aléatoires. Un autre concept clé est que le théorème décrit la limite mathématique lorsque le nombre de variables aléatoires devient de plus en plus grand. Plus vous utilisez de variables, plus la distribution s'approchera d'une distribution normale.

Je vous recommande de suivre un cours de statistique mathématique si vous voulez voir comment les mathématiciens ont déterminé que la distribution normale est en fait la fonction mathématiquement correcte pour la courbe en cloche.


Nous vous remercions de votre contribution. Il serait correct que vous expliquiez que la distribution de la somme (ou de la moyenne) doit être normalisée. Sinon, la distribution de la somme ne se rapproche pas d'une limite et la distribution de la moyenne se rapproche d'une constante. Mais comment cet article répond-il aux questions qui ont été posées? (Certes, diverses questions sont posées et elles sont toutes confuses et vagues, mais elles semblent demander comment la formule de la PDF gaussienne a été découverte ou dérivée.)
whuber

2

Il y a d'excellentes réponses sur ce fil. Je ne peux m'empêcher de penser que le PO ne posait pas la même question à laquelle tout le monde veut répondre. Je comprends cela, cependant, car c’est presque une des questions les plus excitantes à laquelle répondre: j’ai trouvé le résultat, car j’espérais que quelqu'un me posait la question suivante: "Comment savons-nous que le PDF normal est un PDF?" et je l'ai cherché. Mais je pense que la réponse à la question peut être de démontrer l’origine de la distribution normale.

nnnpnp(1-p)n

np0np=1

n=dixp=0.5n=100p=0.5n

Si je dépose actuellement 100 pièces sur le sol et compte le nombre de têtes que je reçois, je pourrais compter 0 tête, ou je pourrais en compter 100, mais je suis beaucoup plus susceptible de compter un nombre quelque part entre les deux. Voyez-vous pourquoi cet histogramme devrait être en forme de cloche?


+1 - notez cependant que je discute de de Moivre dans plusieurs parties de ma réponse. Vous trouverez peut-être la note finale de ma réponse relative aux divergences dans les références - il est intéressant de regarder ce que de Moivre a écrit pour voir dans quelle mesure les différentes caractérisations de son travail semblent tenir. Une discussion spécifique sur les raisons pour lesquelles la cdf binomiale devient bien approximée par une cdf normale dans des conditions appropriées est expliquée dans Pourquoi une distribution binomiale est-elle en forme de cloche?
Glen_b -Reinstate Monica

1

Mentionnerions également la dérivation de Maxwell-Herschel de la distribution normale multivariée indépendante à partir de deux hypothèses:

  1. La distribution n'est pas affectée par la rotation du vecteur.

  2. Les composants du vecteur sont indépendants.

Voici l'exposition de Jaynes

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.