Voici quatre ensembles de nombres différents:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
En utilisant un test t à deux échantillons sans supposer des variances égales, je compare B, C et D à A et j'obtiens les valeurs de p suivantes:
0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)
Je trouve étrange que la valeur de p du test AD soit pire que le test AC: la différence entre les moyennes est clairement beaucoup plus grande ET la variance de D est beaucoup plus faible que la variance de C. Intuitivement (au moins pour mon intuition ), ces deux faits devraient faire baisser la valeur de p.
Quelqu'un pourrait-il expliquer s'il s'agit d'un comportement souhaité ou attendu du test t ou s'il doit faire plus avec mon ensemble de données particulier (taille d'échantillon extrêmement faible peut-être?). Le test t est-il inapproprié pour cet ensemble de données particulier?
D'un point de vue purement informatique, la raison d'une pire valeur p semble être les degrés de liberté, qui dans la comparaison AD est de 2,018 alors qu'il est de 3,566 dans la comparaison AC. Mais sûrement, si vous venez de voir ces chiffres, ne pensez-vous pas qu'il existe des preuves plus solides pour rejeter l'hypothèse nulle dans le cas de la MA par rapport à la CA?
Certains pourraient suggérer que ce n'est pas un problème ici car toutes les valeurs de p sont de toute façon assez faibles. Mon problème est que ces 3 tests font partie d'une suite de tests que j'effectue. Après avoir corrigé plusieurs tests, la comparaison AD ne fait pas la coupe, contrairement à la comparaison AC. Imaginez que vous traçiez ces nombres (par exemple, des diagrammes à barres avec des barres d'erreur comme le font souvent les biologistes) et que vous essayiez de justifier pourquoi C est significativement différent de A mais D n'est pas ... eh bien, je ne peux pas.
Mise à jour: pourquoi c'est vraiment important
Permettez-moi de préciser pourquoi cette observation pourrait avoir un grand impact sur l'interprétation des études antérieures. En bioinfomatique, j'ai vu le test t appliqué à de petites tailles d'échantillons à grande échelle (pensez à l'expression génique différentielle de centaines ou de milliers de gènes, ou à l'effet de nombreux médicaments différents sur une lignée cellulaire, en utilisant seulement 3 à 5 répétitions ). La procédure habituelle consiste à effectuer de nombreux tests t (un pour chaque gène ou médicament), suivis de plusieurs tests de correction, généralement le FDR. Compte tenu de l'observation ci-dessus du comportement du test t de Welch, cela signifie que certains des meilleurs cas sont systématiquement filtrés. Bien que la plupart des gens regardent les données réelles pour les comparaisons en haut de leur liste (celles avec les meilleures valeurs p), je ne connais personne qui parcourra la liste de toutes les comparaisons où l'hypothèse nulle n'était pas '' t rejeté.