Cette question semble avoir toujours sa tête laide et j'essaie de la décapiter pour ma propre compréhension des statistiques (et de la santé mentale!).
Les hypothèses des modèles linéaires généraux (test t, ANOVA, régression, etc.) incluent "l'hypothèse de normalité", mais j'ai constaté que celle-ci est rarement décrite clairement.
Je rencontre souvent des manuels de statistiques, etc., indiquant simplement que "l'hypothèse de normalité" s'applique à chaque groupe (c'est-à-dire aux variables catégorielles X) et nous devrions examiner les écarts par rapport à la normalité pour chaque groupe .
Questions :
l'hypothèse fait-elle référence aux valeurs de Y ou aux résidus de Y?
pour un groupe particulier , est-il possible d'avoir une distribution fortement non normale des valeurs de Y (par exemple, asymétrique) MAIS une distribution approximative (ou du moins plus normale) des résidus de Y?
D’autres sources indiquent que l’hypothèse concerne les résidus du modèle (dans les cas où il existe des groupes, par exemple tests t / ANOVA), et nous devrions examiner les écarts de normalité de ces résidus (c’est-à-dire un seul tracé / test QQ à courir).
La normalité des résidus pour le modèle implique-t-elle la normalité des résidus pour les groupes ? En d'autres termes, devrions-nous simplement examiner les résidus du modèle (contrairement aux instructions de nombreux textes)?
Pour mettre cela dans un contexte, considérons cet exemple hypothétique:
- Je veux comparer la hauteur des arbres (Y) entre deux populations (X).
- Dans une population, la distribution de Y est fortement asymétrique à droite (c.-à-d. Que la plupart des arbres sont courts, très peu grands), tandis que l'autre est pratiquement normale
- La taille est globalement plus élevée dans la population normalement distribuée (ce qui suggère qu'il pourrait y avoir une différence «réelle»).
- La transformation des données n'améliore pas substantiellement la distribution de la première population.
Premièrement, est-il valide de comparer les groupes étant donné les distributions de hauteur radicalement différentes?
Comment puis-je aborder "l'hypothèse de normalité" ici? La hauteur de rappel dans une population n’est pas normalement distribuée. Est-ce que j'examine les résidus des deux populations séparément OU les résidus du modèle (test t)?
Veuillez vous référer aux questions numérotées dans les réponses. L’expérience m’a montré que les gens se perdaient ou se détournaient facilement (surtout moi!). N'oubliez pas que je ne suis pas statisticien. même si j’ai une compréhension assez conceptuelle (c’est-à-dire non technique!) des statistiques.
PS, j'ai parcouru les archives et lu les sujets suivants qui n'ont pas conforté ma compréhension:
- ANOVA hypothèse normalité / distribution normale des résidus
- Normalité des résidus par rapport aux données de l'échantillon; qu'en est-il des tests t?
- Le test de normalité est-il «essentiellement inutile»?
- Tester la normalité
- Evaluer la normalité de la distribution
- Quels tests dois-je utiliser pour confirmer que les résidus sont normalement distribués?
- Que faire lorsque le test de Kolmogorov-Smirnov est significatif pour les résidus du test paramétrique mais que l'asymétrie et le kurtosis semblent normaux?