Le contexte:
Dans une question précédente, @Robbie a demandé dans une étude portant sur environ 600 cas pourquoi les tests de normalité suggéraient une non-normalité significative alors que les graphiques suggéraient des distributions normales . Plusieurs personnes ont souligné que les tests de signification de la normalité ne sont pas très utiles. Avec de petits échantillons, ces tests n'ont pas beaucoup de pouvoir pour détecter des violations légères de la normalité et avec de grands échantillons, ils détecteront des violations de la normalité qui sont suffisamment petites pour ne pas être préoccupantes.
Il me semble que ce problème est similaire au débat sur les tests de signification et la taille des effets. Si vous vous concentrez uniquement sur les tests de signification, lorsque vous avez de gros échantillons, vous pouvez détecter de petits effets qui ne sont pas pertinents à des fins pratiques, et avec de petits échantillons, vous n'avez pas suffisamment de puissance.
Dans quelques cas, j'ai même vu des manuels informer les gens que vous pouvez avoir un échantillon "trop grand", car les petits effets seront statistiquement significatifs.
Dans le contexte des tests de signification et de la taille des effets, une solution simple consiste à se concentrer sur l'estimation de la taille de l'effet d'intérêt, plutôt que d'être obsédé par la règle de décision binaire pour savoir s'il y a ou non un effet. Les intervalles de confiance sur la taille des effets sont une de ces approches, ou vous pouvez adopter une forme d'approche bayésienne. En outre, divers domaines de recherche construisent des idées sur ce que signifie une taille d'effet donnée dans un sens pratique, pour le meilleur ou pour le pire, en appliquant des étiquettes heuristiques telles que "petit", "moyen" et "grand effet". Cela conduit également à la recommandation intelligente de maximiser la taille de l'échantillon afin de maximiser la précision dans l'estimation d'un paramètre d'intérêt donné.
Cela me fait me demander pourquoi une approche similaire basée sur des intervalles de confiance des tailles d'effet n'est pas plus largement adoptée en relation avec le test d'hypothèse, et le test de normalité en particulier.
Question:
- Quel est le meilleur indice unique du degré auquel les données violent la normalité?
- Ou est-il simplement préférable de parler de plusieurs indices de violation de la normalité (par exemple, asymétrie, kurtosis, prévalence des valeurs aberrantes)?
- Comment calculer les intervalles de confiance (ou peut-être une approche bayésienne) pour l'indice?
- Quel type d'étiquettes verbales pourriez-vous attribuer aux points de cet indice pour indiquer le degré de violation de la normalité (p. Ex. Léger, modéré, fort, extrême, etc.)? Le but de ces étiquettes pourrait être d'aider les analystes ayant moins d'expérience à former leur intuition lorsque les violations de la normalité sont problématiques.