Pourquoi devez-vous tester la normalité?
L'hypothèse standard en régression linéaire est que les résidus théoriques sont indépendants et normalement distribués. Les résidus observés sont une estimation des résidus théoriques, mais ne sont pas indépendants (il y a des transformations sur les résidus qui éliminent une partie de la dépendance, mais ne donnent toujours qu'une approximation des vrais résidus). Un test sur les résidus observés ne garantit donc pas l'adéquation des résidus théoriques.
Si les résidus théoriques ne sont pas exactement distribués normalement, mais que la taille de l'échantillon est suffisamment grande, le théorème de la limite centrale dit que l'inférence habituelle (tests et intervalles de confiance, mais pas nécessairement les intervalles de prédiction) basée sur l'hypothèse de normalité sera toujours approximativement correcte .
Notez également que les tests de normalité sont des tests d'exclusion, ils peuvent vous dire qu'il est peu probable que les données proviennent d'une distribution normale. Mais si le test n'est pas significatif, cela ne signifie pas que les données proviennent d'une distribution normale, cela peut également signifier que vous n'avez tout simplement pas assez de puissance pour voir la différence. Des échantillons plus grands donnent plus de pouvoir pour détecter la non-normalité, mais des échantillons plus grands et le CLT signifient que la non-normalité est la moins importante. Ainsi, pour les petits échantillons, l'hypothèse de normalité est importante mais les tests n'ont pas de sens, pour les grands échantillons, les tests peuvent être plus précis, mais la question de la normalité exacte devient vide de sens.
Donc, en combinant tout ce qui précède, ce qui est plus important qu'un test de normalité exacte est une compréhension de la science derrière les données pour voir si la population est assez proche de la normale. Des graphiques comme qqplots peuvent être de bons diagnostics, mais une compréhension de la science est également nécessaire. Si l'on craint qu'il y ait trop d'asymétrie ou de potentiel pour les valeurs aberrantes, alors des méthodes non paramétriques sont disponibles qui ne nécessitent pas l'hypothèse de normalité.