Un problème avec votre discussion avec le professeur est un problème de terminologie, il y a un malentendu qui empêche de transmettre une idée potentiellement utile. À différents endroits, vous faites tous deux des erreurs.
Donc, la première chose à aborder: il est important d'être assez clair sur ce qu'est une distribution .
Une distribution normale est un objet mathématique spécifique, que vous pourriez considérer comme un modèle pour une population infinie de valeurs. (Aucune population finie ne peut réellement avoir une distribution continue.)
En gros, ce que fait cette distribution (une fois que vous spécifiez les paramètres) est de définir (via une expression algébrique) la proportion des valeurs de population qui se situe dans un intervalle donné sur la ligne réelle. Un peu moins lâchement, il définit la probabilité qu'une seule valeur de cette population se situe dans un intervalle donné.
Un échantillon observé n'a pas vraiment de distribution normale; un échantillon pourrait (potentiellement) être tiré d'une distribution normale, s'il en existait un. Si vous regardez le cdf empirique de l'échantillon, il est discret. Si vous le rangez (comme dans un histogramme), l'échantillon a une "distribution de fréquence", mais ce ne sont pas des distributions normales. La distribution peut nous dire certaines choses (dans un sens probabiliste) sur un échantillon aléatoire de la population, et un échantillon peut également nous dire certaines choses sur la population.
Une interprétation raisonnable d'une expression comme "échantillon normalement distribué" * est "un échantillon aléatoire d'une population normalement distribuée".
* (J'essaie généralement d'éviter de le dire moi-même, pour des raisons qui, je l'espère, sont suffisamment claires ici; en général, je parviens à me limiter au deuxième type d'expression.)
Ayant défini des termes (même s'ils sont encore un peu vagues), examinons maintenant la question en détail. Je vais aborder des parties spécifiques de la question.
la distribution normale doit avoir une moyenne = médiane = mode
C'est certainement une condition de la distribution de probabilité normale, mais pas une exigence sur un échantillon tiré d'une distribution normale; les échantillons peuvent être asymétriques, la moyenne peut différer de la médiane, etc. [Nous pouvons cependant avoir une idée de la distance à laquelle nous pouvons raisonnablement nous attendre à ce qu'ils soient si l'échantillon provient vraiment d'une population normale.]
toutes les données doivent être contenues sous la courbe en cloche
Je ne sais pas ce que "contenu sous" signifie dans ce sens.
et parfaitement symétrique autour de la moyenne.
Non; vous parlez des données ici, et un échantillon d'une population normale (certainement symétrique) ne serait pas lui-même parfaitement symétrique.
Par conséquent, techniquement, il n'y a pratiquement AUCUNE distribution normale dans les études réelles,
Je suis d'accord avec votre conclusion mais le raisonnement n'est pas correct; ce n'est pas une conséquence du fait que les données ne sont pas parfaitement symétriques (etc.); c'est le fait que les populations elles-mêmes ne sont pas parfaitement normales .
si le biais / kurtosis est inférieur à 1,0, c'est une distribution normale
Si elle a dit cela de cette façon, elle a définitivement tort.
Un asymétrie d'échantillon peut être beaucoup plus proche de 0 que cela (en prenant "moins que" pour signifier en valeur absolue et non en valeur réelle), et l'échantillon de kurtosis en excès peut également être beaucoup plus proche de 0 que cela (ils pourraient même, que ce soit par hasard ou construction, potentiellement être presque exactement nul), et pourtant la distribution à partir de laquelle l'échantillon a été tiré peut facilement être nettement non normale.
Nous pouvons aller plus loin - même si nous devions savoir par magie que l' asymétrie et le kurtosis de la population étaient exactement ceux d'une normale, cela ne nous dirait toujours pas en soi que la population était normale, ni même quelque chose de proche de la normale.
L'ensemble de données est le nombre total de chutes / an dans un échantillon aléatoire de 52 maisons de soins infirmiers qui est un échantillon aléatoire d'une population plus importante.
La répartition de la population des dénombrements n'est jamais normale. Les dénombrements sont discrets et non négatifs, les distributions normales sont continues et sur toute la ligne réelle.
Mais nous sommes vraiment concentrés sur le mauvais problème ici. Les modèles de probabilité ne sont que cela, des modèles . Ne confondons pas nos modèles avec la réalité .
Le problème n'est pas "les données elles-mêmes sont- elles normales?" (ils ne peuvent pas l'être), ni même "la population dont les données ont été tirées est-elle normale?" (ce ne sera presque jamais le cas).
Une question plus utile à discuter est «à quel point mon inférence serait-elle affectée si je traitais la population comme normalement répartie?
Il est également beaucoup plus difficile de bien répondre à cette question et peut nécessiter beaucoup plus de travail que de jeter un coup d'œil à quelques diagnostics simples.
Les exemples de statistiques que vous avez montrés ne sont pas particulièrement incompatibles avec la normalité (vous pourriez voir des statistiques comme ça ou "pire" pas très rarement si vous aviez des échantillons aléatoires de cette taille provenant de populations normales), mais cela ne signifie pas en soi que la population réelle d'où l'échantillon a été tiré est automatiquement «assez proche» de la normale pour un usage particulier. Il serait important de considérer le but (à quelles questions vous répondez), et la robustesse des méthodes utilisées pour cela, et même alors, nous ne pouvons toujours pas être sûrs qu'il est "assez bon"; Parfois, il peut être préférable de simplement ne pas supposer ce que nous n'avons pas de bonnes raisons de supposer a priori (par exemple sur la base d'une expérience avec des ensembles de données similaires).
ce n'est PAS une distribution normale
Les données - même les données tirées d'une population normale - n'ont jamais exactement les propriétés de la population; à partir de ces seuls chiffres, vous n'avez pas de bonnes bases pour conclure que la population n'est pas normale ici.
D'un autre côté, nous n'avons pas non plus de base raisonnablement solide pour dire qu'elle est "suffisamment proche" de la normale - nous n'avons même pas envisagé le but de supposer la normalité, nous ne savons donc pas à quelles caractéristiques de distribution elle pourrait être sensible.
Par exemple, si j'avais deux échantillons pour une mesure qui était bornée, je savais que ce ne serait pas très discret (ne prenant principalement que quelques valeurs distinctes) et raisonnablement proche de symétrique, je serais peut-être relativement heureux d'utiliser un échantillon à deux test t à une taille d'échantillon pas si petite; il est modérément robuste à des écarts légers par rapport aux hypothèses (quelque peu robuste au niveau, pas si robuste à la puissance). Mais je serais beaucoup plus prudent quant à l'hypothèse causale de normalité lors du test d'égalité de propagation, par exemple, car le meilleur test sous cette hypothèse est assez sensible à l'hypothèse.
Parce qu'elles sont toutes les deux comprises entre les valeurs critiques de -1 et +1, ces données sont considérées comme normalement distribuées. "
Si c'est vraiment le critère par lequel on décide d'utiliser un modèle de distribution normal, cela vous mènera parfois à des analyses assez médiocres.
Les valeurs de ces statistiques nous donnent quelques indices sur la population à partir de laquelle l'échantillon a été tiré, mais ce n'est pas du tout la même chose que de suggérer que leurs valeurs sont en quelque sorte un `` guide sûr '' pour choisir une analyse.
Maintenant, pour aborder le problème sous-jacent avec une version encore mieux formulée d'une question telle que celle que vous aviez:
Tout le processus consistant à examiner un échantillon pour choisir un modèle est semé d'embûches - cela modifie les propriétés de tout choix d'analyse ultérieur en fonction de ce que vous avez vu! Par exemple, pour un test d'hypothèse, vos niveaux de signification, les valeurs de p et la puissance ne sont pas tous ce que vous choisiriez / calculeriez , car ces calculs reposent sur l'analyse qui n'est pas basée sur les données.
Voir, par exemple, Gelman et Loken (2014), « The Statistical Crisis in Science », American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) qui traite des problèmes liés à une telle analyse dépendante des données.