Pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le zéro» plutôt que d'accepter l'hypothèse nulle?


44

Les tests statistiques traditionnels, tels que le test t à deux échantillons, visent à éliminer l'hypothèse selon laquelle il n'y a pas de différence entre une fonction de deux échantillons indépendants. Ensuite, nous choisissons un niveau de confiance et disons que si la différence de moyennes dépasse 95%, nous pouvons rejeter l'hypothèse nulle. Sinon, nous "ne pouvons pas rejeter l'hypothèse nulle". Cela semble impliquer que nous ne pouvons pas l'accepter non plus. Cela signifie-t-il que nous ne sommes pas sûrs que l'hypothèse nulle soit vraie?

Maintenant, je veux concevoir un test où mon hypothèse est que la fonction de deux échantillons est la même (ce qui est le contraire des tests statistiques traditionnels où l’hypothèse est que les deux échantillons sont différents). Donc, mon hypothèse nulle devient que les deux échantillons sont différents. Comment dois-je concevoir un tel test? Sera-t-il aussi simple que de dire que si la valeur p est inférieure à 5%, nous pouvons accepter l'hypothèse selon laquelle il n'y a pas de différence significative?



différence de moyenne est au-delà du niveau de 95%, nous pouvons rejeter l'hypothèse nulle. Le 95% n'est pas un "niveau", il est ici dans 95 cas sur 100 (comparaisons), la différence dans les statistiques d'échantillon est due aux fluctuations de l'échantillonnage. cela signifie que null est accepté à alpha = .05. Dire le niveau de 95% n'est pas le terme correct.
Subhash C. Davar le

Réponses:


44

0

00.01(4.99, 5.01)00.01(0.005, 0.015)

0

0pour tous vos besoins, vous effectuez ensuite un test unilatéral pour déterminer si la valeur observée est inférieure à la limite supérieure de cet intervalle et un autre test unilatéral pour voir si elle est supérieure à la limite inférieure. Si ces deux tests sont significatifs, vous avez alors rejeté l'hypothèse selon laquelle la valeur réelle se situe en dehors de l'intervalle qui vous tient à cœur. Si l'un (ou les deux) ne sont pas significatifs, vous ne rejetez pas l'hypothèse selon laquelle la valeur vraie est en dehors de l'intervalle.

(0.02, 0.02)0.010(0.02, 0.02), ce qui peut sembler déroutant au début, mais est tout à fait compatible avec la logique du test des hypothèses.)


1
H0H0

1
H0H0:δ0δ>0<0

1
H0

4
δ0δ0H0:δ0

1
H0:δ<0H0:δ=0δ>0δ<0peut en réalité conduire à accepter l’un d’eux (ou un résultat peu concluant). De plus, les tests unilatéraux ont plus de sens du point de vue bayésien. De plus, la prévision scientifique devrait avoir une direction. Je suppose que je commence à penser que les tests unilatéraux ne sont pas suffisamment appréciés.
Amibe dit de réintégrer Monica

28

Prenons le cas où l'hypothèse nulle est qu'une pièce de monnaie a 2 têtes, c'est-à-dire que la probabilité de têtes est de 1. Maintenant, les données sont le résultat du fait de retourner une pièce de monnaie une seule fois et de voir les têtes. Cela donne une valeur p de 1,0 qui est supérieure à chaque alpha raisonnable. Est-ce que cela signifie que la pièce a 2 têtes? cela pourrait être, mais cela pourrait aussi être une pièce équitable et nous avons vu des têtes par hasard (cela se produirait 50% du temps avec une pièce équitable). Ainsi, la valeur p élevée dans ce cas indique que les données observées sont parfaitement cohérentes avec le zéro, mais également avec d'autres possibilités.

Tout comme un verdict "non coupable" devant un tribunal peut signifier que le défendeur est innocent, cela peut également être dû au fait que le défendeur est coupable mais que les preuves sont insuffisantes. La même chose avec l'hypothèse nulle que nous ne parvenons pas à rejeter car ce dernier pourrait être vrai ou nous pourrions ne pas disposer de suffisamment de preuves pour les rejeter, même si elles sont fausses.


3
J'aime l'exemple "non coupable". En allant un peu plus loin, rouvrir des affaires sur la base de preuves ADN que nous ne savions pas comment utiliser par le passé et l'annulation de certaines condamnations est un exemple parfait de la nécessité d'ajouter plus de données pour disposer de suffisamment de preuves.
Thomas Speidel

7

L'absence de preuve n'est pas une preuve d'absence (titre d'un article de Altman, Bland sur le BMJ). Les valeurs prédictives ne nous donnent la preuve d'une absence que lorsque nous les considérons comme significatives. Sinon, ils ne nous disent rien. Par conséquent, absence de preuve. En d'autres termes: nous ne savons pas et plus de données peuvent aider.


5

H0

H1H0

H0

Si nous avons deux échantillons dont nous nous attendons à être distribués de manière identique, notre hypothèse nulle est que les échantillons sont les mêmes. Si nous avons deux échantillons que nous nous attendions à être (énormément) différents, notre hypothèse nulle est qu'ils sont différents.


Et si nous n’avions aucune attente, il se pourrait que nous ne le sachions pas. Aussi, comment fonctionnera la règle de décision si nous voulons rejeter l'hypothèse selon laquelle les deux échantillons sont différents?
ryu576

Si vous ne vous attendez pas à ce que vous souhaitiez que les deux types d'erreurs soient limités, vous souhaitez que les deux types d'erreurs restent faibles, mais cela n'est pas toujours possible. Vous avez besoin d'une variable supplémentaire (telle que l'augmentation de la taille de l'échantillon) pour le faire.
SomeEE

2
Puisque nous pouvons rejeter le null mais ne pas le prouver, le null est généralement le contraire de ce que nous voulons prouver ou supposer être vrai. Si nous croyons qu'il y a une différence, le zéro doit être nul pour que vous puissiez l'incriminer.
Greg Snow

@Greg C'est une bonne approche si vous savez laquelle vous voulez être vraie, ce qui est probablement le cas habituel.
SomeEE

1
"Ce que vous attendez" et "qu'ils sont différents" ne peuvent en aucun cas être des hypothèses statistiques, car elles ne sont pas quantitatives. Cela touche au cœur du problème: l'asymétrie des rôles entre les hypothèses nulle et alternative découle de la capacité à déterminer la distribution d'échantillonnage de la statistique de test sous le zéro, par rapport à la nécessité de paramétrer la distribution par la taille de l'effet sous le hypothèse alternative. Ce n'est pas non plus le cas où nous "minimisons l'erreur de type I": cela ne se produit jamais (le minimum est toujours 0). Les tests recherchent un équilibre entre les taux d'erreur des types I et II.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.