J'ai quelques données qui semblent en traçant un graphique des résidus en fonction du temps presque normal mais je veux en être sûr. Comment puis-je tester la normalité des résidus d'erreur?
J'ai quelques données qui semblent en traçant un graphique des résidus en fonction du temps presque normal mais je veux en être sûr. Comment puis-je tester la normalité des résidus d'erreur?
Réponses:
Aucun test ne vous dira que vos résidus sont normalement distribués. En fait, vous pouvez parier de manière fiable qu'ils ne le sont pas .
Les tests d'hypothèse ne sont généralement pas une bonne idée pour vérifier vos hypothèses. L'effet de la non-normalité sur votre inférence n'est généralement pas fonction de la taille de l'échantillon *, mais le résultat d'un test de signification l' est . Un petit écart par rapport à la normalité sera évident pour un échantillon de grande taille, même si la réponse à la question de l'intérêt réel («dans quelle mesure cela a-t-il affecté ma déduction?») Peut être «presque pas du tout». De même, un écart important par rapport à la normalité pour un petit échantillon peut ne pas approcher de la signification.
* (ajouté dans l'édition) - en fait, c'est une déclaration beaucoup trop faible. L'impact de la non-normalité diminue en fait avec la taille de l'échantillon à peu près à chaque fois que le CLT et le théorème de Slutsky vont tenir, tandis que la capacité de rejeter la normalité (et probablement d'éviter les procédures de théorie normale) augmente avec la taille de l'échantillon ... vous êtes le plus en mesure d'identifier la non-normalité quand cela n'a pas d'importance toute façon ... et le test n'est d'aucune aide quand il est réellement important, dans de petits échantillons.
bien, au moins en ce qui concerne le niveau de signification. La puissance peut toujours être un problème, mais si nous considérons de grands échantillons comme ici, cela peut aussi être moins un problème.
Ce qui se rapproche le plus de la mesure de la taille de l'effet est un diagnostic (soit un affichage, soit une statistique) qui mesure le degré de non-normalité d'une manière ou d'une autre. Un tracé QQ est un affichage évident, et un tracé QQ de la même population à une taille d'échantillon et à une taille d'échantillon différentes sont au moins les deux estimations bruyantes de la même courbe - montrant à peu près la même `` non-normalité ''; elle devrait au moins être approximativement liée de façon monotone à la réponse souhaitée à la question d'intérêt.
Si vous devez utiliser un test, Shapiro-Wilk est probablement à peu près aussi bon que n'importe quoi d'autre (le test Chen-Shapiro est généralement un peu meilleur sur les alternatives d'intérêt commun, mais plus difficile à trouver des implémentations de) - mais il répond à une question que vous connaissent déjà la réponse à; chaque fois que vous refusez de le rejeter, cela donne une réponse dont vous pouvez être sûr qu'il a tort.
Le test de Shapiro-Wilk est une possibilité.
Ce test est implémenté dans presque tous les progiciels statistiques. L'hypothèse nulle est que les résidus sont normalement distribués, donc une petite valeur p indique que vous devez rejeter le nul et conclure que les résidus ne sont pas normalement distribués.
Notez que si la taille de votre échantillon est grande, vous rejetterez presque toujours, donc la visualisation des résidus est plus importante.
De wikipedia:
Les tests de normalité univariée comprennent le test du carré K de D'Agostino, le test Jarque – Bera, le test Anderson – Darling, le critère Cramér – von Mises, le test Lilliefors pour la normalité (lui-même une adaptation du test Kolmogorov – Smirnov), le Test de Shapiro – Wilk, test du chi carré de Pearson et test de Shapiro – Francia. Un article de 2011 du Journal of Statistical Modeling and Analytics [1] conclut que Shapiro-Wilk a le meilleur pouvoir pour une signification donnée, suivi de près par Anderson-Darling lors de la comparaison de Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors et Anderson- Tests chérie.