J'examine une partie de mon ensemble de données contenant 46840 valeurs doubles allant de 1 à 1690 regroupées en deux groupes. Afin d'analyser les différences entre ces groupes, j'ai commencé par examiner la distribution des valeurs afin de choisir le bon test.
Après un guide sur les tests de normalité, j'ai fait un qqplot, un histogramme et un boxplot.
Cela ne semble pas être une distribution normale. Étant donné que le guide déclare quelque peu correctement qu'un examen purement graphique n'est pas suffisant, je veux également tester la distribution pour la normalité.
Compte tenu de la taille de l'ensemble de données et de la limitation du test des shapiro-wilks dans R, comment la distribution donnée doit-elle être testée pour la normalité et compte tenu de la taille de l'ensemble de données, est-ce encore fiable? ( Voir réponse acceptée à cette question )
Éditer:
La limitation du test Shapiro-Wilk dont je parle est que l'ensemble de données à tester est limité à 5000 points. Pour citer une autre bonne réponse concernant ce sujet:
Un problème supplémentaire avec le test de Shapiro-Wilk est que lorsque vous lui fournissez plus de données, les chances de rejet de l'hypothèse nulle deviennent plus grandes. Donc, ce qui se passe, c'est que pour de grandes quantités de données, même de très petits écarts par rapport à la normalité peuvent être détectés, conduisant au rejet de l'événement d'hypothèse nulle mais à des fins pratiques, les données sont plus que suffisamment normales.
[...] Heureusement, shapiro.test protège l'utilisateur de l'effet décrit ci-dessus en limitant la taille des données à 5000.
Quant à savoir pourquoi je teste la distribution normale en premier lieu:
Certains tests d'hypothèse supposent une distribution normale des données. Je veux savoir si je peux ou non utiliser ces tests.