Le test t de Welch donne une valeur de p pire pour une différence plus extrême

8

Voici quatre ensembles de nombres différents:

A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}

En utilisant un test t à deux échantillons sans supposer des variances égales, je compare B, C et D à A et j'obtiens les valeurs de p suivantes:

0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)

Je trouve étrange que la valeur de p du test AD soit pire que le test AC: la différence entre les moyennes est clairement beaucoup plus grande ET la variance de D est beaucoup plus faible que la variance de C. Intuitivement (au moins pour mon intuition ), ces deux faits devraient faire baisser la valeur de p.

Quelqu'un pourrait-il expliquer s'il s'agit d'un comportement souhaité ou attendu du test t ou s'il doit faire plus avec mon ensemble de données particulier (taille d'échantillon extrêmement faible peut-être?). Le test t est-il inapproprié pour cet ensemble de données particulier?

D'un point de vue purement informatique, la raison d'une pire valeur p semble être les degrés de liberté, qui dans la comparaison AD est de 2,018 alors qu'il est de 3,566 dans la comparaison AC. Mais sûrement, si vous venez de voir ces chiffres, ne pensez-vous pas qu'il existe des preuves plus solides pour rejeter l'hypothèse nulle dans le cas de la MA par rapport à la CA?

Certains pourraient suggérer que ce n'est pas un problème ici car toutes les valeurs de p sont de toute façon assez faibles. Mon problème est que ces 3 tests font partie d'une suite de tests que j'effectue. Après avoir corrigé plusieurs tests, la comparaison AD ne fait pas la coupe, contrairement à la comparaison AC. Imaginez que vous traçiez ces nombres (par exemple, des diagrammes à barres avec des barres d'erreur comme le font souvent les biologistes) et que vous essayiez de justifier pourquoi C est significativement différent de A mais D n'est pas ... eh bien, je ne peux pas.

Mise à jour: pourquoi c'est vraiment important

Permettez-moi de préciser pourquoi cette observation pourrait avoir un grand impact sur l'interprétation des études antérieures. En bioinfomatique, j'ai vu le test t appliqué à de petites tailles d'échantillons à grande échelle (pensez à l'expression génique différentielle de centaines ou de milliers de gènes, ou à l'effet de nombreux médicaments différents sur une lignée cellulaire, en utilisant seulement 3 à 5 répétitions ). La procédure habituelle consiste à effectuer de nombreux tests t (un pour chaque gène ou médicament), suivis de plusieurs tests de correction, généralement le FDR. Compte tenu de l'observation ci-dessus du comportement du test t de Welch, cela signifie que certains des meilleurs cas sont systématiquement filtrés. Bien que la plupart des gens regardent les données réelles pour les comparaisons en haut de leur liste (celles avec les meilleures valeurs p), je ne connais personne qui parcourra la liste de toutes les comparaisons où l'hypothèse nulle n'était pas '' t rejeté.

t-test

— ALiX
source

1

N'oubliez pas que la formule de Welch est une approximation. Les études de simulation indiquent que la «correction de Welch devient trop conservatrice lorsque les tailles d'échantillon sont fortement inégales», ce qui est le cas avec la comparaison AD.

— whuber

1

Les tailles d'échantillon sont égales dans ce cas @whuber. Voulez-vous dire les écarts d'échantillon?

— ALiX

1

Merci, ALiX, vous avez raison. Dans le cas de variances très inégales et de tailles d’échantillons égales, j’aurais dû citer une conclusion différente (ce qui est encore pire!): "... l’erreur de type I ... se gonfle à divers degrés, de sorte que les tests ne sont pas valides et ne doit pas être utilisé. "

— whuber

Je me demande si vos données sont des comptes de lecture de rna-seq? Si oui, puis-je suggérer que vous examiniez DESeq (package R / Bioconducteur)? genomebiology.com/2010/11/10/R106

— bdemarest

3

Oui, ce sont les degrés de liberté. Les statistiques t elles-mêmes augmentent lorsque nous comparons les groupes B, C, D à A; les numérateurs grossissent et les dénominateurs deviennent plus petits.

Pourquoi votre approche ne fonctionne-t-elle pas? Eh bien, l'approximation de Satterthwaite pour les degrés de liberté, et la distribution de référence n'est (comme son nom l'indique!) Qu'une approximation. Cela fonctionnerait bien si vous aviez plus d'échantillons dans chaque groupe, et pas des données extrêmement lourdes; 3 observations par groupe est vraiment très faible pour la plupart des objectifs. (De plus, bien que les valeurs de p soient utiles pour effectuer des tests, elles ne mesurent pas les preuves et n'évaluent pas les paramètres avec des interprétations directes en termes de données.)

Si vous voulez vraiment déterminer la distribution exacte de la statistique de test - et une valeur p mieux calibrée - il existe des méthodes citées ici qui pourraient être utilisées. Cependant, ils reposent sur l'hypothèse de normalité, une hypothèse que vous n'avez aucune capacité appréciable à vérifier, ici.

— client
source

Plus d'échantillons seuls ne seraient pas utiles: j'obtiendrais des valeurs de p plus faibles, mais l'ordre des valeurs de p serait le même. Voir ma mise à jour pourquoi cela pourrait être important dans certaines applications.

— ALiX

Je suis d'accord que ce phénomène pourrait être important, mais plus d'échantillons par groupe aideraient; asymptotiquement, le test donne des valeurs de p précises. Cependant, avec de petits groupes, il existe des méthodes exactes (par exemple SAM, par Tibshirani) qui tirent leur validité statistique d'une analyse basée sur la permutation.

— invité

S'il y a une grande différence entre les variances des deux groupes, l'augmentation de la taille de l'échantillon n'aidera pas dans le sens où l'ordre des valeurs p sera erroné (c'est-à-dire que AC aura toujours une valeur p inférieure à AD). SAM ne peut pas être utilisé si vous testez l'effet de nombreux composés à différentes concentrations (cela devrait être une application idéale du test t). Le test t de Welch me semble fondamentalement imparfait : son objectif est de gérer les variances inégales, mais plus les variances sont inégales, plus les performances sont mauvaises (l'approximation du degré de liberté se décompose).

— ALiX

1

Si vous souhaitez des comparaisons par paires des différents niveaux de concentration et testez les niveaux d'expression des gènes sur de nombreux gènes, la SAM peut être utilisée pour chaque comparaison par paires et vous donnera des déclarations honnêtes de signification statistique pour chaque comparaison. Vous pouvez ensuite, si vous le souhaitez, les utiliser pour classer les comparaisons. De plus, le test de Welch n'est pas fondamentalement défectueux. Bien sûr, cela ne fonctionne tout simplement pas bien avec n = 3, mais ce n'est pas ce qu'il prétend faire. Une pompe à vélo est sans espoir pour éplucher les pommes de terre, mais cela ne signifie pas que vous pouvez conclure qu'elle est "fondamentalement défectueuse".

— invité

1

La commande est potentiellement fausse, peu importe ce que vous faites, donc cela n'aide pas. Si vous souhaitez classer par signification statistique la différence moyenne entre les groupes dans vos données réelles et avoir des échantillons de taille modérée, la valeur de p du test de Welch fera l'affaire. Avec des échantillons minuscules, non, cela ne fonctionnera pas bien, mais étant donné qu'il a été développé comme une approximation et qu'il fonctionne mieux que de nombreux concurrents, ce n'est pas un motif de critique.

— invité

1

Il y a beaucoup de choses dans cette question, et je suis presque certain que certaines d'entre elles sont hors de ma compréhension. Ainsi, même si j'ai une solution probable au «problème» et certaines spéculations, vous devrez peut-être vérifier mes «rouages».

Vous êtes intéressé par des preuves. Fisher a proposé l'utilisation des valeurs de p comme preuve, mais les preuves dans un ensemble de données contre l'hypothèse nulle sont plus facilement (raisonnablement?) Montrées avec une fonction de vraisemblance que la valeur de p. Cependant, une valeur p plus extrême est une preuve plus forte.

Voici ma solution: n'utilisez pas le test t de Welch, mais transformez plutôt les données avec une transformation de racine carrée pour égaliser les variances, puis utilisez un test t de Student standard. Cette transformation fonctionne bien sur vos données et est l'une des approches standard pour les données hétéroscédastiques. L'ordre des valeurs p correspond maintenant à votre intuition et servira de preuve.

Si vous utilisez les valeurs de p comme preuve plutôt que de tenter de vous protéger contre les erreurs faussement positives à long terme, les arguments pour ajuster les valeurs de p pour les comparaisons multiples deviennent assez faibles, à mon avis.

Maintenant, la partie spéculative. Si je comprends bien, le test t de Welch est une solution au problème de Fisher-Behrens (tester signifie que les données ont des variances inégales), mais c'est une solution dont Fisher n'était pas satisfait. C'est peut-être un Neyman-Pearsonian dans sa philosophie sous-jacente. Quoi qu'il en soit, la quantité de preuves en valeur ap d'un test t dépend de la valeur p ET de la taille de l'échantillon. (Cela n'est pas largement reconnu, peut-être parce que les preuves en valeur ap d'un test z sont indépendantes de la taille de l'échantillon.) Je soupçonne que le test de Welch fausse la nature probante de la valeur p par son ajustement des degrés de liberté.

— Michael Lew
source

Merci d'avoir signalé la transformation de la racine carrée comme une solution. Je vais y jeter un œil.

— ALiX

(suite) Je ne comprends pas vraiment votre commentaire sur les valeurs de p et les tests multiples. Y a-t-il une contradiction entre l'utilisation des valeurs de p comme preuve et l'ajustement pour plusieurs tests? Et votre dernier commentaire sur les preuves d'une valeur de p d'un test t en fonction de la taille de l'échantillon: les degrés de liberté ne s'ajustent-ils pas à la taille des échantillons? Et d'ailleurs, comment cela pourrait-il avoir un impact sur cet ensemble de données particulier lorsque les tailles d'échantillon sont les mêmes pour toutes les comparaisons?

— ALiX

@AliX La preuve contre l'hypothèse nulle est mieux quantifiée par la fonction de vraisemblance. Pour un test t, la hauteur de la fonction de vraisemblance qui correspond à une valeur p particulière dépend de la taille de l'échantillon. En revanche, avec un test z, la hauteur de la fonction de vraisemblance n'est pas affectée par la taille de l'échantillon. SI vous êtes intéressé par des preuves, je vous suggère de regarder les preuves statistiques: un paradigme de vraisemblance par Richard Royall.

— Michael Lew

1

Après avoir fouillé, je pense que mon verdict final va quelque chose comme ceci:

Pour simplifier la discussion, considérons uniquement le cas où les tailles d'échantillon sont égales. Dans ce cas, l'approximation des degrés de liberté peut s'écrire

\frac{{(\frac{s_{1}^{2}}{n} + \frac{s_{2}^{2}}{n})}^{2}}{\frac{s_{1}^{4}}{n^{2} (n - 1)} + \frac{s_{2}^{4}}{n^{2} (n - 1)}} = . . . = (n - 1) (1 + \frac{2 s_{1}^{2} s_{2}^{2}}{s_{1}^{4} + s_{2}^{4}}),

$\frac{\left(\frac{s_1^2}{n} + \frac{s_2^2}{n}\right)^2}{\frac{s_1^4}{n^2(n-1)} + \frac{s_2^4}{n^2(n-1)}} = ... = (n-1)\left(1 + \frac{2 s_1^2 s_2^2}{s_1^4 + s_2^4}\right),$

où $s_1^2$ et $s_2^2$ sont les variances de l'échantillon et $n$ est la taille de l'échantillon. Par conséquent, les degrés de liberté sont $(n-1)\cdot2$ lorsque les variances d'échantillon sont égales et approchent $(n-1)$ à mesure que les tailles d'échantillon deviennent plus inégales. Cela signifie que les degrés de liberté différeront d'un facteur de près de 2 en fonction uniquement des variances de l'échantillon. Même pour des tailles d'échantillon de taille raisonnable (disons 10 ou 20), la situation illustrée dans le message principal peut facilement se produire.

Lorsque de nombreux tests t sont effectués, le tri des comparaisons par valeur de p pourrait facilement conduire à ce que les meilleures comparaisons ne parviennent pas en tête de liste ou soient exclues après ajustement pour plusieurs tests.

Mon opinion personnelle est qu'il s'agit d'un défaut fondamental du test t de Welch car il est conçu pour des comparaisons entre des échantillons avec des variances inégales, mais plus les variances deviennent inégales, plus vous perdez de la puissance (dans le sens où l'ordre de votre p -les valeurs seront fausses).

La seule solution à laquelle je peux penser est d'utiliser à la place des tests basés sur la permutation ou de transformer les données afin que les écarts dans vos tests ne soient pas trop éloignés les uns des autres.

— ALiX
source

1

Je ne pense pas que cela devrait être appelé "défaut fondamental". Tout est relatif à quelque chose. Le test t de Welch est sorti en réponse à une erreur de type I sous-estimée du test t de variance spoulée, c'est donc une façon améliorée de contrôler l'erreur de type I "par rapport au" test t de variance spoulée. Mais quand il s'agit de MCP et de valeurs de p très faibles, il a certainement des problèmes.

— KH Kim

2

Comment allez-vous organiser vos permutations? Si les échantillons proviennent vraiment de populations dont la variance diffère, même sous le zéro, les étiquettes de groupe ne sont pas arbitraires - à égalité.

n

$n$ , si une valeur est proche de la moyenne, il est beaucoup plus probable qu'elle provienne du groupe présentant une variance plus faible. Donc, vous ne semblez pas être en mesure de faire valoir que vous pouvez simplement permuter les étiquettes sous le null.

— Glen_b -Reinstate Monica

0

Pour autant que je sache, j'ai entendu le test t de Welch qui utilise l'approximation de Satterthwaite

est vérifié pour un test de signification de 0,05.

Ce qui signifie que lorsque P (combinaison linéaire de distribution khi carré> c) = 0,05,

nous pouvons obtenir approximativement c.

Donc, je pense que la valeur de p est assez fiable autour de 0,05,

Et évidemment, ce n'est pas le cas quand il devient bien inférieur à 0,05.

p1 = 0 p2 = 0 pour (m en 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.test (a, c, var.eqaul = F) $p.value p2[m]=t.test(a,d, var.eqaul=F)$ p.value} tracé (1:50, p1, col = "noir") points (1:50, p2, col = "rouge")

Vous pouvez voir que les valeurs de p deviennent plus correctes à l'approche de 0,05 ...

Nous ne devons donc pas utiliser des valeurs de p qui sont bien inférieures à 0,05 lors de l'utilisation du test t de Welch.

S'il est utilisé, je pense que nous devrions écrire un article à ce sujet.

Quoi qu'il en soit, j'écris actuellement sur "Statistiques" et ce thème est intrigant.

J'espère utiliser vos données en écrivant le livre avec votre permission.

Pourriez-vous me laisser utiliser vos données?

Et je vous serais reconnaissant de bien vouloir indiquer la source des données et le contexte à partir duquel

ils sont venus!

— KH Kim
source

J'ai fait quelques recherches à ce sujet et j'ai trouvé l'approximation comme ceci. Vous voulez connaître la distribution d'un chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2) mais la distribution exacte est tellement compliquée que l'approximation entre en jeu. Et laissez un chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3), et définissez df3 de sorte que les moyennes et les seconds moments de deux distributions soient identiques. donc le p = 0,5 est exact mais à mesure qu'il s'en éloigne, la différence b2 le p exact et le p approximatif grandit. Je me souviens quand le t de Welch a été exécuté, R a toujours imprimé "la valeur de p n'est pas exacte" je suppose

— KH Kim

J'analyse uniquement les données, et en tant que telles, les données ne m'appartiennent pas réellement. Mais une fois que les données sont publiées (devrait être bientôt), vous devriez pouvoir les utiliser comme vous le souhaitez.

— ALiX