Désaccord entre les valeurs de p et les intervalles de confiance

Il s'agit d'une question concernant le test t dans SPSS.

J'ai deux groupes et je veux tester si les deux moyennes sont égales. J'utilise le test t avec bootstrapping. En fin de compte, j'ai obtenu une valeur de p <0,005, ce qui me ferait généralement rejeter l'hypothèse nulle selon laquelle les moyennes des deux populations sont égales, mais dans mon cas, le zéro se situe dans les intervalles de confiance de 95% BCa bootstrap sur la base de 1000 échantillons .

Dois-je toujours rejeter l'hypothèse de l'égalité des moyens?

— Liza Vieira
source

Pour clarifier, avez-vous effectué un test t amorcé à partir duquel vous comparez maintenant la valeur p et l'IC à 95%, ou avez-vous exécuté un test t standard (non amorcé) pour obtenir la valeur p et utilisé uniquement l'amorçage pour CI?

— Rose Hartman

Réponses:

Mise en garde: Cette réponse suppose que la question concerne l'interprétation des valeurs de p et des CI amorcés. Une comparaison entre une valeur de p traditionnelle (non amorcée) et un CI amorcé serait un problème différent.

Avec un test t traditionnel (non amorcé), l'IC à 95% et la position de la valeur p par rapport au seuil de 0,05 pour la signification vous diront toujours la même chose. En effet, ils sont tous deux basés sur les mêmes informations: la distribution t de vos degrés de liberté et la moyenne et l'erreur standard observée dans votre échantillon (ou la différence entre les moyennes et l'erreur standard, dans le cas d'un t- à deux échantillons). tester). Si votre CI ne chevauche pas avec 0, alors votre valeur p sera nécessairement <0,05 --- à moins, bien sûr, qu'il y ait un bogue dans le logiciel ou une erreur utilisateur dans la mise en œuvre ou l'interprétation du test.

Avec un test t bootstrapé, les valeurs CI et p sont toutes deux calculées directement à partir de la distribution empirique générée par le bootstrap: la valeur p est simplement le pourcentage des différences de groupe bootstrapées qui sont plus extrêmes que la différence observée d'origine; l'IC à 95% est le milieu à 95% des différences entre les groupes amorcés. Il n'est pas impossible que la valeur de p et l'IC ne soient pas d'accord sur la signification dans un test bootstrap.

Acceptez-vous ou rejetez-vous l'hypothèse nulle?

Dans le contexte d'un test bootstrapé, la valeur de p (par rapport à l'IC) reflète plus directement l'esprit du test d'hypothèse, il est donc plus logique de s'appuyer sur cette valeur pour décider de rejeter ou non la valeur nulle à votre alpha souhaité (généralement 0,05). Donc, dans votre cas, où la valeur p est inférieure à 0,05 mais que l'IC à 95% contient zéro, je recommande de rejeter l'hypothèse nulle .

Tout cela saute les grandes idées sur l'importance réelle de la «signification» et si oui ou non les tests de signification d'hypothèse nulle sont réellement utiles à un outil. En bref, je recommande toujours de compléter toute analyse de test de signification par une estimation de la taille des effets (pour un test t à deux échantillons, la meilleure estimation de la taille de l'effet sera probablement le d de Cohen ), ce qui peut fournir un contexte supplémentaire pour vous aider à comprendre vos résultats.

Article utile connexe: Quelle est la signification d'un intervalle de confiance tiré de rééchantillonnages amorcés?

— Rose Hartman
source

C'est une excellente réponse (+1), mais quelques conseils sur la façon dont le PO approche s'il accepte ou rejette le Null complèteraient la réponse à la question finale du PO.

— Ashe

@Ashe Merci! Vous avez raison de dire que je n'ai pas abordé la question centrale de front. Je vais modifier pour améliorer cela.

— Rose Hartman

"pour un test t à deux échantillons, la meilleure estimation de la taille de l'effet sera probablement le d de Cohen" Est-ce spécifique au bootstrap? Parce que je pense que pour un test t normal, l'intervalle de confiance vous donne les meilleures informations sur la taille de l'effet sur l'échelle réelle sur laquelle vous avez testé.

— David Ernst

Le d de Cohen est pour n'importe quelle différence de deux groupes; l'amorçage ou non n'a pas d'importance. Les IC ne sont généralement pas considérés comme des estimations de la "taille de l'effet" car ils dépendent de la taille de l'échantillon (par exemple en.wikipedia.org/wiki/… : "Contrairement à la statistique du test t, la taille de l'effet vise à estimer un paramètre de population et n'est pas affectée par la taille de l'échantillon. ") Peut-être que ce que vous vous demandez, ce sont des estimations de taille d'effet standardisées ou non standardisées? La taille d'effet non normalisée pour deux groupes n'est que la différence brute entre les moyennes.

— Rose Hartman

Merci beaucoup! Votre explication sur la valeur de p et l'IC dans le contexte d'un test t amorcé a été très utile. Comme vous le suggérez, j'ai déterminé le d de Cohen, une statistique très utile pour comprendre mes résultats.

— Liza Vieira

Si la valeur de p de l'hypothèse nulle est inférieure à 0,05, zéro ne doit pas être contenu dans l'intervalle de confiance à 0,05 du paramètre que vous supposez être nul dans l'hypothèse nulle. C'est la même chose. Il y a donc un bug ou vous ne testez pas la même hypothèse.

EDITER , comme les autres réponses et le commentaire ci-dessous l'indiquent correctement, ce n'est pas toute l'histoire. Cependant, je pense toujours que si un test indique que les groupes ont une moyenne différente (p <0,005) et que l'autre ne rejette pas (p> 0,05), les tests vérifient probablement vraiment une chose différente.

Bien que théoriquement, cette différence puisse être due à des asymptotiques (les bootstrap sont des approximations sur échantillon fini, d'autres tests sont des approximations basées sur des hypothèses de normalité), cette différence est étonnamment grande. Je soutiens qu'il est d'une ampleur alarmante, et sans comprendre ce qui se passe avec cela, vous ne devriez pas encore tirer de conclusions. C'est d'ailleurs exactement ce que vous faites, soit dit en passant, en posant la question ici. Vous pouvez peut-être partager les chiffres et rendre cette question intéressante un peu plus concrète.

— Gijs
source

Je ne suis pas d'accord. Un intervalle de confiance amorcé peut ne pas suivre les résultats d'un test t, car il s'agit d'un type de procédure complètement différent (dans ce cas, basé sur la différence des moyennes de groupe). Surtout quand un intervalle de confiance bootstrap corrigé et accéléré est fait, des choses comme des intervalles de confiance asymétriques autour de l'estimation d'origine (c'est-à-dire une différence de moyennes de groupe dans ce cas) peuvent se produire.

— IWS