Dans quelle mesure les valeurs de

Intro: Ayant noté l'attention reçue aujourd'hui par cette question, " L'ANOVA peut-elle être significative alors qu'aucun des tests t par paires ne l'est? " .

Une variété de résultats incongrus (à leur valeur nominale) peut se produire lorsque la signification statistique est comprise comme une simple dichotomie et jugée sur la seule base de laquelle est plus élevé, le ou le . La réponse de @ Glen_b à la question ci-dessus présente un exemple utile de cas où: $p$ $\alpha$

Un test ANOVA produit un pour une variable indépendante (IV) à quatre niveaux, mais $F$ $p_F<.05$
$p_t>.08$ pour tous les tests deux échantillons qui comparent les différences dans la même variable dépendante (DV) entre les observations correspondant à chaque paire des quatre niveaux du IV. $t$

Un cas similaire s'est produit malgré les corrections de Bonferroni pour les comparaisons post-hoc par paires via cette question: les mesures répétées Anova sont significatives, mais toutes les comparaisons multiples avec la correction de Bonferroni ne le sont pas? Il existe également des cas mentionnés précédemment avec un test légèrement différent en régression multiple:

Pourquoi est-il possible d'obtenir une statistique F significative (p <0,001) mais des tests t de régresseur non significatifs? : $p_F<.001,p_{\beta t}>.09$
Comment une régression peut-elle être significative alors que tous les prédicteurs peuvent être non significatifs?
- Dans la réponse de @ whuber , $p_F=.0003,p_{\beta t}>.09$

Je parie que dans des cas comme ceux-ci, certaines (mais pas toutes) les valeurs de $p$ $\alpha$ $p <\alpha$ des comparaisons par paires (ou des tests de signification des coefficients de régression) doivent être assez proches de si un test omnibus correspondant peut atteindre un . Je vois que c'est le cas dans le premier exemple de @ Glen_b, où , , et la plus grande différence par paire donne le plus petit . Cela doit-il être le cas en général? Plus précisément : $F_{(3,20)}=3.19$ $p_F=.046$ $p_t=.054$

Question: Si un test ANOVA produit un pour un effet polytomique IV sur un DV continu, quelle pourrait être la valeur la plus basse parmi tous les tests deux échantillons qui comparent chaque paire de niveaux IV? La signification par paire minimale pourrait-elle être aussi élevée que ? $F$ $p_F=.05$ $p$ $t$ $p_t=.50$

_{Je me réjouis des réponses qui ne répondent qu'à cette question spécifique . Cependant, pour motiver davantage cette question, je vais développer et ajouter quelques questions potentiellement rhétoriques. N'hésitez pas à répondre à ces préoccupations également, et même à ignorer la question spécifique si vous le souhaitez, surtout si la question spécifique obtient une réponse définitive.}

Signification: Considérez à quel point la différence entre a et a serait moins importante si la signification statistique était jugée en termes continus de la force des preuves par rapport à l'hypothèse nulle (approche de Ron Fisher, je pense? ), plutôt qu'en termes dichotomiques comme au-dessus ou en dessous d'un seuil pour une probabilité d'erreur acceptable dans le choix de rejeter ou non le gros nul. " -hacking " est un problème connu qui doit en partie sa notoriété à une vulnérabilité inutile introduite par l'interprétation de $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ valeurs selon la pratique courante de dichotomiser la signification en équivalents de «assez bon» et «pas assez bon». Si l'on devait éliminer cette pratique et se concentrer plutôt sur l'interprétation des valeurs de comme force de la preuve par rapport au nul sur un intervalle continu, le test omnibus pourrait-il être un peu moins important quand on se soucie vraiment de plusieurs comparaisons par paires? Pas nécessairement inutile, car toute amélioration raisonnablement efficace de la précision statistique est bien sûr souhaitable, mais ... si, par exemple, la valeur la plus faible de la comparaison par paire se situe nécessairement à moins de de l'ANOVA (ou autre test omnibus) $p$ $p$ $.10$ $p$ valeur, cela ne rend-il pas le test omnibus un peu plus trivial, moins obligatoire et encore plus trompeur (en conjonction avec des malentendus préexistants), surtout si l'on ne veut pas particulièrement contrôler sur plusieurs tests? $\alpha$

Inversement, s'il peut exister des données telles qu'un omnibus , mais toutes par paires , cela ne devrait-il pas davantage motiver les tests omnibus et de contraste tout au long de la pratique et de la pédagogie? Il me semble que cette question devrait également éclairer le bien-fondé relatif de juger la signification statistique selon une dichotomie par rapport à un continuum, dans la mesure où le système d'interprétation dichotomique devrait être plus sensible aux petits ajustements lorsque les différences sont "marginalement significatives", alors qu'aucun des deux systèmes est à l'abri d'un échec à effectuer un test omnibus ou à ajuster pour des comparaisons multiples si cette différence / ajustement peut être très grande (par exemple, $p=.05$ $p>.50$ en théorie. $p_t-p_F>.40)$

_{Autres complexités facultatives à considérer ou à ignorer - tout ce qui rend la réponse plus facile et plus utile :}

^{Quelle pourrait être la valeur de s pour s si, pour , place (par exemple, ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Sensibilité au nombre de niveaux dans un polytome IV}
^{Sensibilité aux irrégularités dans la signification des différences par paires (alors que tous les ) $p_t>p_F$}
- ^{la réponse de whuber indique que l'inclusion de petites différences peut masquer de grandes différences.}
^{Différences entre les différentes corrections des tests omnibus pour les comparaisons multiples}
- ^{Voir aussi: Correction des comparaisons multiples dans un sujet à l'intérieur / mesures répétées ANOVA; excessivement conservateur?}
- ^{Avec plusieurs IV, il semble que la multicolinéarité puisse exacerber ce problème .}
^{Cas restreints où les données répondent de manière optimale à toutes les hypothèses des tests paramétriques classiques}
- ^{Cette restriction peut être importante pour éviter que cette question soit quelque peu théorique.}

— Nick Stauner
source

Vous voudrez peut-être préciser si les tests t par paire doivent utiliser la même estimation de la variance d'erreur que le test F omnibus (dans l'exemple de Glen, ils ne le font pas).

— Scortchi - Réintégrer Monica

Je voulais dire un test t ordinaire pour la différence de moyennes en utilisant

, mais avec

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$ calculé comme étant la racine carrée de l'erreur quadratique moyenne ANOVAR. Il s'agit du test t par paire post-hoc habituel et ne s'ajuste pas aux comparaisons multiples, contrairement au HSD de Tukey. Il incorpore des informations de tous les groupes, mais est indépendant des différences dans les moyennes des groupes.

— Scortchi - Réintégrer Monica

Je vois (en quelque sorte)! Je serais principalement intéressé à suivre l'exemple de @ Glen_b et à ne pas utiliser

\sqrt{MSE}

$\sqrt{\text{MSE}}$ , mais en utilisant la première formule que vous avez mentionnée pour éviter d'incorporer des informations de tous les groupes. Cela ne veut pas dire que j'ai une forte préférence ici ... mais une partie de mon intention initiale était de présenter une variante du thème commun dans ces questions: "Quel est le vrai mal à ignorer des informations au-delà des deux groupes particuliers en question pour une donnée donnée? test à deux échantillons parmi tant d'autres? " Je suppose que ce thème mérite également d'être repris dans cette décision.

— Nick Stauner

@Scortchi J'ai inclus un exemple à l'autre question qui couvre votre premier commentaire (c'est-à-dire où les tests sont effectués en utilisant la variance d'erreur commune et df), bien que tous les tests (F et comparaisons multiples) soient effectués à un niveau de signification assez faible (0,0025, pas 0,05). Comparé aux tests t à deux échantillons ordinaires individuels demandés par Nick S. ici, il montre qu'une différence de signification assez importante est possible (dans ce cas,

pour tous les tests t ordinaires , mais

). Je pense qu'avec de nombreux groupes, il est possible d'aller beaucoup plus loin.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

— Glen_b -Reinstate Monica

J'ai esquissé une réponse à la première partie de cette question il y a quelques minutes dans un commentaire sur stats.stackexchange.com/questions/83030/… .

— whuber

En supposant s égaux [mais voir la note 2 ci-dessous] pour chaque traitement dans un schéma unidirectionnel, et que le SD groupé de tous les groupes est utilisé dans les tests (comme cela est fait dans les comparaisons post hoc habituelles), le maximum possible valeur de pour un test est $n$ $t$ $p$ $t$ (ici,désigne lecdf). Ainsi, aucunne peut être aussi élevé que. Fait intéressant (et plutôt bizarre), laborne dene s'applique pas seulement à $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ $0.5$ $.1573$ , mais pour tousniveaux de signification nous avons besoin pour . $p_F=.05$ $F$

La justification est la suivante: pour une gamme donnée de moyennes d'échantillon, , la plus grande statistique possible est atteinte lorsque la moitié des sont à un extrême et l'autre moitié à l'autre. Cela représente le cas où $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ $F$ $\bar y_i$ $F$ semble le plus significatif étant donné que deux moyennes diffèrent d'au plus . $2a$

Donc, sans perte de généralité, supposons que pour que dans ce cas limite. Et encore une fois, sans perte de généralité, supposons que , car nous pouvons toujours redimensionner les données à cette valeur. Considérons maintenant moyennes (où est même pour simplifier [mais voir note 1 ci-dessous]), nous avons $\bar y_.=0$ $\bar y_i=\pm a$ $MS_E=1$ $k$ $k$ . En posantpour que, on obtient $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ $p_F=\alpha$ $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ . Lorsque tous lessont(et toujours), chaquestatistiquenon nulleest donc $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ $\bar y_i$ $\pm a$ $MS_E=1$ $t$ . Il s'agit de la plus petite valeurmaximale possible lorsque. $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ $t$ $F=F_\alpha$

Vous pouvez donc simplement essayer différents cas de et , calculer et son associé . Mais notons que pour donné , diminue en [mais voir note 3 ci-dessous]; de plus, comme , ; donc $k$ $n$ $t$ $p_t$ $k$ $F_\alpha$ $n$ $n\rightarrow\infty$ $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ . Note that $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ has mean $\frac{k-1}k$ and SD $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ . So $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ , regardless of $\alpha$ , and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of $k$ , using $\alpha=.05$ :

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

When k is odd: The maximum $F$ statistic still occurs when the $\bar y_i$ are all $\pm a$ ; however, we will have one more at one end of the range than the other, making the mean $\pm a/k$ , and you can show that the factor $k$ in the $F$ statistic is replaced by $k-\frac 1k$ . This also replaces the denominator of $t$ , making it slightly larger and hence decreasing $p_t$ .
Unequal $n$ s: The maximum $F$ is still achieved with the $\bar y_i = \pm a$ , with the signs arranged to balance the sample sizes as nearly equally as possible. Then the $F$ statistic for the same total sample size $N = \sum n_i$ will be the same or smaller than it is for balanced data. Moreover, the maximum $t$ statistic will be larger because it will be the one with the largest $n_i$ . So we can't obtain larger $p_t$ values by looking at unbalanced cases.
A slight correction: I was so focused on trying to find the minimum $t$ that I overlooked the fact that we are trying to maximize $p_t$ , and it is less obvious that a larger $t$ with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for $n=2,3,4,\ldots$ until the df are high enough to make little difference. For the case $\alpha=.05, k\ge 3$ I did not see any cases where the $p_t$ values did not increase with $n$ . Note that the $df=k(n-1)$ so the possible df are $k,2k,3k,\ldots$ which get large fast when $k$ is large. So I'm still on safe ground with the claim above. I also tested $\alpha=.25$ , and the only case I observed where the $.1573$ threshold was exceeded was $k=3,n=2$ .

— Russ Lenth
source