Ma distribution est normale; Le test de Kolmogorov-Smirnov n'est pas d'accord

15

J'ai un problème avec la normalité de certaines données: j'ai fait un test de Kolmogorov qui dit que ce n'est pas normal avec p = .0000, je ne comprends pas: l'asymétrie de ma distribution = -. 497, et le kurtosis = -0,024

Voici l'intrigue de ma distribution qui semble tout à fait normale ...

(J'ai trois scores, et chacun de ces scores n'est pas normal avec une valeur de p significative pour le test de Kolmogorov ... Je ne comprends vraiment pas)

entrez la description de l'image ici

— Huer
source

11

Comment savez-vous que c'est normal? Cela ne me semble pas normal. Il semble asymétrique à gauche.

— mark999

1

Pourquoi testez-vous la normalité?

— Jack Aidley

39

Vous n'avez aucune base pour affirmer que vos données sont normales. Même si votre asymétrie et votre excès de kurtosis étaient tous deux exactement de 0, cela ne signifie pas que vos données sont normales. Alors que l'asymétrie et le kurtosis loin des valeurs attendues indiquent une non-normalité, l'inverse ne tient pas. Il y a des distributions non normales qui ont la même asymétrie et kurtosis que la normale. Un exemple est discuté ici , dont la densité est reproduite ci-dessous:

Comme vous le voyez, c'est nettement bimodal. Dans ce cas, la distribution est symétrique, donc tant qu'il y a suffisamment de moments, la mesure d'asymétrie typique sera 0 (en effet, toutes les mesures habituelles le seront). Pour le kurtosis, la contribution aux 4èmes moments de la région proche de la moyenne aura tendance à rendre le kurtosis plus petit, mais la queue est relativement lourde, ce qui a tendance à l'agrandir. Si vous choisissez juste, le kurtosis sort avec la même valeur que pour la normale.
Votre asymétrie d'échantillon se situe en fait autour de -0,5, ce qui suggère une légère asymétrie à gauche. Votre histogramme et votre tracé QQ indiquent tous deux la même chose - une distribution légèrement asymétrique à gauche. (Il est peu probable qu'une telle asymétrie légère soit un problème pour la plupart des procédures courantes de la théorie normale.)
Vous regardez plusieurs indicateurs différents de non-normalité auxquels vous ne devriez pas vous attendre à être d'accord a priori , car ils considèrent différents aspects de la distribution; avec de petits échantillons légèrement non normaux, ils seront souvent en désaccord.

Maintenant, pour la grande question: * Pourquoi testez- vous la normalité? *

[édité en réponse aux commentaires:]

Je ne suis pas vraiment sûr, je pensais que je devrais le faire avant de faire une ANOVA

Il y a un certain nombre de points à souligner ici.

je. La normalité est une hypothèse d'ANOVA si vous l'utilisez pour l'inférence (comme les tests d'hypothèse), mais elle n'est pas particulièrement sensible à la non-normalité dans des échantillons plus grands - une non-normalité légère est de peu d'importance et à mesure que la taille des échantillons augmente, la distribution peut devenir plus anormal et le test peut être seulement un peu affecté.

ii. Vous semblez tester la normalité de la réponse (le DV). La distribution (inconditionnelle) de DV elle-même n'est pas supposée être normale dans l'ANOVA. Vous vérifiez les résidus pour évaluer le caractère raisonnable de l'hypothèse concernant la distribution conditionnelle (c'est-à-dire que c'est le terme d'erreur dans le modèle supposé normal) - c'est-à-dire que vous ne semblez pas regarder la bonne chose. En effet, comme le contrôle est fait sur les résidus, vous le faites après l'ajustement du modèle, plutôt qu'avant.

iii. Les tests formels peuvent être presque inutiles. La question qui nous intéresse ici est «à quel point le degré de non-normalité affecte ma déduction?», Auquel le test d'hypothèse ne répond pas vraiment. À mesure que la taille de l'échantillon augmente, le test devient de plus en plus capable de détecter des différences triviales par rapport à la normalité, tandis que l'effet sur le niveau de signification dans l'ANOVA devient de plus en plus petit. Autrement dit, si la taille de votre échantillon est raisonnablement grande, le test de normalité indique principalement que vous avez une grande taille d'échantillon, ce qui signifie que vous n'aurez peut-être pas grand-chose à craindre. Au moins avec un tracé QQ, vous avez une évaluation visuelle de la façon dont elle est non normale.

iv. à des tailles d'échantillon raisonnables, d'autres hypothèses - comme l'égalité de variance et l'indépendance - importent généralement beaucoup plus qu'une légère non-normalité. S'inquiéter des autres hypothèses d'abord ... mais encore une fois, les tests formels ne répondent pas à la bonne question

v. choisir si vous effectuez une ANOVA ou un autre test basé sur le résultat d'un test d'hypothèse tend à avoir des propriétés pires que de simplement décider d'agir comme si l'hypothèse ne tient pas. (Il existe une variété de méthodes adaptées aux analyses unidirectionnelles de type ANOVA sur des données qui ne sont pas supposées être normales que vous pouvez utiliser chaque fois que vous ne pensez pas avoir de raison de supposer la normalité. Certaines ont un très bon pouvoir à la normale, et avec un logiciel décent, il n'y a aucune raison de les éviter.)

[Je crois que j'avais une référence pour ce dernier point mais je ne peux pas la localiser pour le moment; si je le trouve, j'essaierai de revenir et de le mettre]

— Glen_b -Reinstate Monica
source

J'ai lu votre histogramme comme montrant approximativement min 12 en mode 48 max 60, donc min en mode est 36, mode en max est 12. Il ne faut pas trop lire dans ces détails, mais ils sont entièrement compatibles avec l'asymétrie gauche.

— Nick Cox

10

Le test de Kolmogorov-Smirnov a une bonne dose de puissance lorsque la taille des échantillons est grande, il peut donc être facile de rejeter l'hypothèse nulle selon laquelle vos données ne diffèrent pas de la normalité. En d'autres termes, le test suggère parfois qu'une distribution n'est pas normale dans de grands échantillons, même si elle est normale pour la plupart des intentions.

Pensez-y comme un test t. Si vous avez deux populations dont la hauteur ne diffère que d'un millième de millimètre, un échantillon incroyablement grand confirmera statistiquement qu'elles sont différentes, même si la différence n'a pas de sens.

Vous pouvez peut-être vous fier à d'autres méthodes pour déterminer la normalité de vos données. Les tracés que vous utilisez sont deux bons exemples, ainsi que les valeurs de biais / kurtosis.

Cet autre sujet semble particulièrement lié: les tests de normalité sont-ils «essentiellement inutiles»?

— Behacad
source

Oh ok, il semble bien, ma taille d'échantillon est assez grande (n = 660), y a-t-il un autre test qui est moins biaisé par une énorme taille d'échantillon?

— Boo

Faites une recherche sur ce site et vous trouverez des réponses pertinentes. stats.stackexchange.com/questions/12261/testing-normalit stats.stackexchange.com/questions/2492/…

— Behacad

13

Les tests ne sont pas biaisés par la taille énorme de l'échantillon.

— Peter Flom - Réintègre Monica

10

Le test de Kolmogorov – Smirnov est sans distribution lorsque l'hypothèse nulle est entièrement spécifiée - si la moyenne et la variance sont estimées à partir des données, assurez-vous d'utiliser la variante de Lilliefors lors du test de normalité (si vous le devez). Cela ne contredit pas les autres réponses.

— Scortchi - Réintégrer Monica
source