Intro: Ayant noté l'attention reçue aujourd'hui par cette question, " L'ANOVA peut-elle être significative alors qu'aucun des tests t par paires ne l'est? " .
Une variété de résultats incongrus (à leur valeur nominale) peut se produire lorsque la signification statistique est comprise comme une simple dichotomie et jugée sur la seule base de laquelle est plus élevé, le ou le . La réponse de @ Glen_b à la question ci-dessus présente un exemple utile de cas où:α
- Un test ANOVA produit un pour une variable indépendante (IV) à quatre niveaux, maisp F < 0,05
- t pour tous les tests deux échantillons qui comparent les différences dans la même variable dépendante (DV) entre les observations correspondant à chaque paire des quatre niveaux du IV.
Un cas similaire s'est produit malgré les corrections de Bonferroni pour les comparaisons post-hoc par paires via cette question: les mesures répétées Anova sont significatives, mais toutes les comparaisons multiples avec la correction de Bonferroni ne le sont pas? Il existe également des cas mentionnés précédemment avec un test légèrement différent en régression multiple:
- Pourquoi est-il possible d'obtenir une statistique F significative (p <0,001) mais des tests t de régresseur non significatifs? :
- Comment une régression peut-elle être significative alors que tous les prédicteurs peuvent être non significatifs?
- Dans la réponse de @ whuber ,
Je parie que dans des cas comme ceux-ci, certaines (mais pas toutes) les valeurs de des comparaisons par paires (ou des tests de signification des coefficients de régression) doivent être assez proches de α si un test omnibus correspondant peut atteindre un p < α . Je vois que c'est le cas dans le premier exemple de @ Glen_b, où , p F = 0,046 , et la plus grande différence par paire donne le plus petit p t = 0,054 . Cela doit-il être le cas en général? Plus précisément :
Question: Si un test ANOVA produit un p F = .05 pour un effet polytomique IV sur un DV continu, quelle pourrait être la valeur p la plus basse parmi tous les tests t à deux échantillons qui comparent chaque paire de niveaux IV? La signification par paire minimale pourrait-elle être aussi élevée que p t = 0,50 ?
Je me réjouis des réponses qui ne répondent qu'à cette question spécifique . Cependant, pour motiver davantage cette question, je vais développer et ajouter quelques questions potentiellement rhétoriques. N'hésitez pas à répondre à ces préoccupations également, et même à ignorer la question spécifique si vous le souhaitez, surtout si la question spécifique obtient une réponse définitive.
Signification: Considérez à quel point la différence entre a et a p t = .06 serait moins importante si la signification statistique était jugée en termes continus de la force des preuves par rapport à l'hypothèse nulle (approche de Ron Fisher, je pense? ), plutôt qu'en termes dichotomiques comme au-dessus ou en dessous d'un seuil α = 0,05 pour une probabilité d'erreur acceptable dans le choix de rejeter ou non le gros nul. " p -hacking " est un problème connu qui doit en partie sa notoriété à une vulnérabilité inutile introduite par l'interprétation de pvaleurs selon la pratique courante de dichotomiser la signification en équivalents de «assez bon» et «pas assez bon». Si l'on devait éliminer cette pratique et se concentrer plutôt sur l'interprétation des valeurs de comme force de la preuve par rapport au nul sur un intervalle continu, le test omnibus pourrait-il être un peu moins important quand on se soucie vraiment de plusieurs comparaisons par paires? Pas nécessairement inutile, car toute amélioration raisonnablement efficace de la précision statistique est bien sûr souhaitable, mais ... si, par exemple, la valeur p la plus faible de la comparaison par paire se situe nécessairement à moins de 0,10 de l'ANOVA (ou autre test omnibus) pvaleur, cela ne rend-il pas le test omnibus un peu plus trivial, moins obligatoire et encore plus trompeur (en conjonction avec des malentendus préexistants), surtout si l'on ne veut pas particulièrement contrôler sur plusieurs tests?
Inversement, s'il peut exister des données telles qu'un omnibus , mais toutes par paires p > 0,50 , cela ne devrait-il pas davantage motiver les tests omnibus et de contraste tout au long de la pratique et de la pédagogie? Il me semble que cette question devrait également éclairer le bien-fondé relatif de juger la signification statistique selon une dichotomie par rapport à un continuum, dans la mesure où le système d'interprétation dichotomique devrait être plus sensible aux petits ajustements lorsque les différences sont "marginalement significatives", alors qu'aucun des deux systèmes est à l'abri d'un échec à effectuer un test omnibus ou à ajuster pour des comparaisons multiples si cette différence / ajustement peut être très grande (par exemple, p t - p F > en théorie.
Autres complexités facultatives à considérer ou à ignorer - tout ce qui rend la réponse plus facile et plus utile :
- Quelle pourrait être la valeur de s pour t s si, pour F , p < 0,05 à la place (par exemple, p = 0,01 , 0,001 , … )
- Sensibilité au nombre de niveaux dans un polytome IV
- Sensibilité aux irrégularités dans la signification des différences par paires (alors que tous les )
- la réponse de whuber indique que l'inclusion de petites différences peut masquer de grandes différences.
- Différences entre les différentes corrections des tests omnibus pour les comparaisons multiples
- Voir aussi: Correction des comparaisons multiples dans un sujet à l'intérieur / mesures répétées ANOVA; excessivement conservateur?
- Avec plusieurs IV, il semble que la multicolinéarité puisse exacerber ce problème .
- Cas restreints où les données répondent de manière optimale à toutes les hypothèses des tests paramétriques classiques
- Cette restriction peut être importante pour éviter que cette question soit quelque peu théorique.