Quand est-il OK d'écrire «nous avons supposé une distribution normale» d'une mesure empirique?

Il est ancré dans l'enseignement des disciplines appliquées, comme la médecine, que les mesures des quantités biomédicales dans la population suivent une «courbe en cloche» normale. Une recherche Google de la chaîne "nous avons supposé une distribution normale" renvoie résultats! Ils sonnent comme «étant donné le petit nombre de points de données extrêmes, nous avons supposé une distribution normale pour les anomalies de température» dans une étude sur le changement climatique; ou "nous avons supposé une distribution normale des dates d'éclosion des poussins" sur un document peut-être moins controversé sur les pingouins; ou "nous avons supposé une distribution normale des chocs de croissance du PIB" , $\small 23,900$ , ... et d'autres choses).

Récemment, je me suis retrouvé à remettre en question le traitement des données de comptage comme normalement réparties en raison de leur nature strictement positive. Bien sûr, les données de comptage sont discrètes, ce qui rend leur normalité d'autant plus artificielle. Mais même en laissant ce dernier point de côté, pourquoi des mesures empiriques continues telles que le poids, la taille ou la concentration de glucose, jugées prototypiquement "continues", devraient-elles être considérées comme normales? Ils ne peuvent pas avoir plus d'observations négatives réalisées que les comptes!

Je comprends que lorsque l'écart-type est sensiblement inférieur à la moyenne, indiquant peu de valeurs négatives ("vérification de la plage de 95%"), cela peut être une hypothèse pratique, et les histogrammes de fréquence peuvent le soutenir s'il n'est pas trop biaisé. Mais la question ne semblait pas anodine, et une recherche rapide a donné des informations intéressantes.

Dans Nature, nous pouvons trouver la déclaration suivante sur une lettre de DF Heath : "Je tiens à souligner que pour l'analyse statistique de certains types de données, l'hypothèse selon laquelle les données sont tirées d'une population normale est généralement fausse, et que l'alternative l'hypothèse d'une distribution log-normale est meilleure. Cette alternative est largement utilisée par les statisticiens, les économistes et les physiciens, mais pour une raison quelconque, elle est souvent ignorée par les scientifiques de certaines autres disciplines. "

Limpert note que "le modèle log-normal peut servir d'approximation dans le sens où de nombreux scientifiques perçoivent maintenant la normale comme une approximation valide" , tout en notant la faible puissance des tests de qualité de l'ajustement de la normalité et la difficulté de sélectionner la bonne distribution empirique lorsqu'il s'agit de petits échantillons.

Par conséquent, la question est: "Quand est-il acceptable de supposer une distribution normale d'une mesure empirique dans les sciences appliquées sans autre preuve à l'appui?" Et, pourquoi d'autres alternatives, telles que la log-normale, ne l'ont pas, et ne vont probablement pas se concrétiser?

— Antoni Parellada
source

La réponse dépendrait du type de chose que vous faites et de sa sensibilité aux écarts potentiels de la normalité (c.-à-d. Si vous testez l'égalité des variances en utilisant un test F du rapport, vous feriez mieux d'avoir des distributions qui sont très proche de la normale ... mais si vous construisiez un intervalle t pour la différence de moyenne, avec de grands échantillons, vous pourriez ne pas avoir besoin de les avoir très proches de la normalité). ... et sur votre tolérance (ou celle de votre public) pour le type d'impact que cela aurait sur l'inférence que vous faites.

— Glen_b -Reinstate Monica

Je trouve votre question vraiment intéressante. Ayons quelques choses en compte:

Dire qu'une variable observée est continue dans la vie réelle sera toujours un peu faux, car il est très difficile de mesurer vraiment en continu.
Ajoutez maintenant les propriétés d'une variable aléatoire normale : plage , distribution symétrique (moyenne = mode = médiane), la fonction de densité de probabilité a points d'inflexion en et . $N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
Dire qu'une variable aléatoire suit une distribution Log-Normale implique que la variable suit une distribution normale. $X$ $Y=log(X)$

Cela dit, dire que toute variable observée suit une distribution normale ou Log-Normal semble un peu fou. En pratique, ce qui est fait, c'est que vous mesurez les écarts des fréquences observées par rapport aux fréquences attendues, si cette variable provient d'une population normale (ou de toute autre distribution). Si vous pouvez dire que ces écarts sont simplement aléatoires, parce que vous échantillonnez, alors vous pouvez dire quelque chose comme s'il n'y a pas suffisamment de preuves pour rejeter l'hypothèse nulle que cette variable provient d'une population normale , ce qui se traduit par nous travaillerons comme si ( en supposant que) la variable suit une distribution normale .

En réponse à votre première question, je ne pense pas qu'il y ait quelqu'un d'aussi audacieux pour dire qu'une variable est supposée être normalement distribuée sans autre preuve . Pour dire quelque chose comme ça, vous avez besoin d'au moins un qq-plot, un histogramme, un test d'ajustement ou une combinaison de ceux-ci.

Pour répondre à la deuxième question, l'intérêt particulier pour la distribution normale est que de nombreux tests classiques sont basés sur une hypothèse de normalité de la variable, comme le test t, ou le pour la variance. Donc, la normalité simplifie le travail, c'est tout. $\chi^2$

— toneloy
source

Merci pour votre réponse, qui touche à de nombreux points clés. Cependant, j'ai tendance à penser que les choses dans le "monde réel" des sciences appliquées sont moins structurées, et une tangente directe est souvent prise pour supposer la normalité.

— Antoni Parellada

Quelque chose que je n'ai pas mentionné est l'autre partie de l'histoire si la distribution normale: c'est la distribution limite de la standardisation d'une somme de variables aléatoires iid, comme il est indiqué dans le théorème de la limite centrale. Si vous pouvez dire que votre variable est une somme de nombreuses variables aléatoires iid, comme dans le raisonnement derrière le mouvement brownien, alors vous pouvez dire que c'est une variable aléatoire normale. C'est le seul raccourci valide que je connaisse. Je peux inclure cela dans la réponse si vous le souhaitez.

— toneloy