Par exemple, les gens choisissent souvent d'utiliser un test non paramétrique lorsqu'un autre test suggère que les résidus ne sont pas normalement distribués. Cette approche semble assez largement acceptée mais ne semble pas être d'accord avec la première phrase de ce paragraphe. J'espérais juste obtenir des éclaircissements sur cette question.
Oui, beaucoup de gens font ce genre de chose et changent leur deuxième test en un test qui peut traiter l'hétéroscédasticité quand ils rejettent l'égalité de variance, etc.
Ce n'est pas parce que quelque chose est courant que c'est nécessairement sage.
En effet, dans certains endroits (je ne nommerai pas les disciplines les plus fautives), une grande partie de ce test d'hypothèse formel dépendant d'autres tests d'hypothèse formels est réellement enseignée.
Le problème est que vos procédures n'ont pas leurs propriétés nominales, parfois même pas proches. (D'un autre côté, supposer des choses comme ça sans aucune considération pour une violation potentiellement extrême pourrait être encore pire.)
Plusieurs articles suggèrent que pour le cas hétéroscédastique, il vaut mieux agir simplement comme si les variances ne sont pas égales que de le tester et de ne faire quelque chose à ce sujet que lors du rejet.
Dans le cas de la normalité, c'est moins clair. Dans les grands échantillons au moins, dans de nombreux cas, la normalité n'est pas si cruciale (mais ironiquement, avec de grands échantillons, votre test de normalité est beaucoup plus susceptible de rejeter), tant que la non-normalité n'est pas trop sauvage. Une exception concerne les intervalles de prédiction, où vous avez vraiment besoin que votre hypothèse de distribution soit proche de la droite.
En partie, un problème est que les tests d'hypothèse répondent à une question différente de celle à laquelle il faut répondre. Vous n'avez pas vraiment besoin de savoir «les données sont-elles vraiment normales» (presque toujours, ce ne sera pas exactement normal a priori ). La question est plutôt «dans quelle mesure l'étendue de la non-normalité aura-t-elle un impact sur mon inférence».
Le deuxième problème est généralement à peu près indépendant de la taille de l'échantillon ou s'améliore en fait avec l'augmentation de la taille de l'échantillon - mais les tests d'hypothèse sont presque toujours rejetés pour des échantillons de grande taille.
Il existe de nombreuses situations où il existe des procédures robustes ou même sans distribution qui sont très proches de leur efficacité même à la normale (et potentiellement beaucoup plus efficaces à certains départs assez modestes) - dans de nombreux cas, il semblerait idiot de ne pas prendre la même approche prudente.