Il est ancré dans l'enseignement des disciplines appliquées, comme la médecine, que les mesures des quantités biomédicales dans la population suivent une «courbe en cloche» normale. Une recherche Google de la chaîne "nous avons supposé une distribution normale" renvoie résultats! Ils sonnent comme «étant donné le petit nombre de points de données extrêmes, nous avons supposé une distribution normale pour les anomalies de température» dans une étude sur le changement climatique; ou "nous avons supposé une distribution normale des dates d'éclosion des poussins" sur un document peut-être moins controversé sur les pingouins; ou "nous avons supposé une distribution normale des chocs de croissance du PIB" ,, ... et d'autres choses).
Récemment, je me suis retrouvé à remettre en question le traitement des données de comptage comme normalement réparties en raison de leur nature strictement positive. Bien sûr, les données de comptage sont discrètes, ce qui rend leur normalité d'autant plus artificielle. Mais même en laissant ce dernier point de côté, pourquoi des mesures empiriques continues telles que le poids, la taille ou la concentration de glucose, jugées prototypiquement "continues", devraient-elles être considérées comme normales? Ils ne peuvent pas avoir plus d'observations négatives réalisées que les comptes!
Je comprends que lorsque l'écart-type est sensiblement inférieur à la moyenne, indiquant peu de valeurs négatives ("vérification de la plage de 95%"), cela peut être une hypothèse pratique, et les histogrammes de fréquence peuvent le soutenir s'il n'est pas trop biaisé. Mais la question ne semblait pas anodine, et une recherche rapide a donné des informations intéressantes.
Dans Nature, nous pouvons trouver la déclaration suivante sur une lettre de DF Heath : "Je tiens à souligner que pour l'analyse statistique de certains types de données, l'hypothèse selon laquelle les données sont tirées d'une population normale est généralement fausse, et que l'alternative l'hypothèse d'une distribution log-normale est meilleure. Cette alternative est largement utilisée par les statisticiens, les économistes et les physiciens, mais pour une raison quelconque, elle est souvent ignorée par les scientifiques de certaines autres disciplines. "
Limpert note que "le modèle log-normal peut servir d'approximation dans le sens où de nombreux scientifiques perçoivent maintenant la normale comme une approximation valide" , tout en notant la faible puissance des tests de qualité de l'ajustement de la normalité et la difficulté de sélectionner la bonne distribution empirique lorsqu'il s'agit de petits échantillons.
Par conséquent, la question est: "Quand est-il acceptable de supposer une distribution normale d'une mesure empirique dans les sciences appliquées sans autre preuve à l'appui?" Et, pourquoi d'autres alternatives, telles que la log-normale, ne l'ont pas, et ne vont probablement pas se concrétiser?