Tester un grand ensemble de données pour la normalité

J'examine une partie de mon ensemble de données contenant 46840 valeurs doubles allant de 1 à 1690 regroupées en deux groupes. Afin d'analyser les différences entre ces groupes, j'ai commencé par examiner la distribution des valeurs afin de choisir le bon test.

Après un guide sur les tests de normalité, j'ai fait un qqplot, un histogramme et un boxplot.

entrez la description de l'image ici

Cela ne semble pas être une distribution normale. Étant donné que le guide déclare quelque peu correctement qu'un examen purement graphique n'est pas suffisant, je veux également tester la distribution pour la normalité.

Compte tenu de la taille de l'ensemble de données et de la limitation du test des shapiro-wilks dans R, comment la distribution donnée doit-elle être testée pour la normalité et compte tenu de la taille de l'ensemble de données, est-ce encore fiable? ( Voir réponse acceptée à cette question )

Éditer:

La limitation du test Shapiro-Wilk dont je parle est que l'ensemble de données à tester est limité à 5000 points. Pour citer une autre bonne réponse concernant ce sujet:

Un problème supplémentaire avec le test de Shapiro-Wilk est que lorsque vous lui fournissez plus de données, les chances de rejet de l'hypothèse nulle deviennent plus grandes. Donc, ce qui se passe, c'est que pour de grandes quantités de données, même de très petits écarts par rapport à la normalité peuvent être détectés, conduisant au rejet de l'événement d'hypothèse nulle mais à des fins pratiques, les données sont plus que suffisamment normales.

[...] Heureusement, shapiro.test protège l'utilisateur de l'effet décrit ci-dessus en limitant la taille des données à 5000.

Quant à savoir pourquoi je teste la distribution normale en premier lieu:

Certains tests d'hypothèse supposent une distribution normale des données. Je veux savoir si je peux ou non utiliser ces tests.

r normal-distribution normality-assumption large-data

— deemel
source

Il n'y a pas de test ponctuel; chaque test de toute utilisation, un niveau de signification raisonnable sera clairement rejeté. Quel que soit le guide que vous lisez, il vous a induit en erreur. Qu'entendez-vous par «fiable» exactement? À quelle «limitation» du Shapiro-Wilk faites-vous référence? Je serais presque d'accord avec l'énoncé de la réponse à laquelle vous liez ... "Je n'ai jamais rencontré de situation où un test normal est la bonne chose à faire" (j'ai vu au moins une fois une situation où je pense que c'est la bonne chose à faire, mais les gens le font presque toujours pour de mauvaises raisons).

— Glen_b -Reinstate Monica

@Glen_b: accessoirement, je me suis retrouvé à utiliser Shapiro – Wilk l'autre jour pour quantifier les preuves contre le zéro, que quelqu'un sur Academia avait supposé à tort être plus élevé que sur un échantillon de notes. Je me demande si c'était une utilisation défendable.

— Nick Stauner

@NickStauner ma réponse est devenue beaucoup trop longue pour un seul commentaire et je ne veux pas détourner cette question avec une chaîne de commentaires sur votre message là-bas. Possibilités: Nous parlons par chat, ou vous postez une question à ce sujet (à laquelle je pourrais poster une réponse détaillée), ou nous en discutons d'une autre manière, par exemple par e-mail.

— Glen_b -Reinstate Monica

Je ne vois pas pourquoi tu t'embêterais. Ce n'est manifestement pas normal - dans ce cas, l'examen graphique me semble suffisant. Vous avez beaucoup d'observations à partir de ce qui semble être une belle distribution gamma propre. Allez-y. kolmogorov-smirnov si vous devez - je recommanderai une distribution de référence.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
entrez la description de l'image ici

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Comme je le dis toujours, "Voir Les tests de normalité sont-ils" essentiellement inutiles "? ", En particulier la réponse de @ MånsT , qui souligne que différentes analyses ont des sensibilités différentes à différentes violations des hypothèses de normalité. Si votre distribution est aussi proche de la mienne qu'elle en a l'air, vous avez probablement l' et kurtosis ("excès de kurtosis" ). Cela risque d'être un problème pour de nombreux tests. Si vous ne pouvez pas simplement trouver un test avec des hypothèses paramétriques plus appropriées ou pas du tout, vous pouvez peut-être transformer vos données, ou au moins effectuer une analyse de sensibilité de toute analyse que vous avez en tête. $\approx1.4$ $\approx5.9$ $\approx2.9$

— Nick Stauner
source

Tester un grand ensemble de données pour la normalité - comment et est-il fiable?