Pourquoi les erreurs de type II dans les tests d'hypothèse sont-elles considérées comme des erreurs?


8

Je lis des erreurs de décision dans les tests d'hypothèses. Ma question est la suivante: pourquoi une "erreur de type II" est-elle considérée comme une erreur? D'après ce que je comprends, elle survient lorsque nous ne parvenons pas à rejeter une fausse hypothèse nulle. Lorsque nous échouons à rejeter l'hypothèse nulle, cela signifie simplement que nous n'avons pas de preuves solides pour la rejeter. Nous ne faisons aucun commentaire sur laquelle des deux hypothèses est vraie (ou fausse) - l'une ou l'autre peut être vraie. Nous ne disons pas que l'hypothèse nulle est vraie. Par conséquent, pourquoi une telle conclusion est-elle appelée erreur?

Réponses:


5

C'est parce que nous ne faisons pas ce que nous sommes censés faire lorsque l'hypothèse alternative est vraie. Par exemple, nous n'utilisons pas le nouveau médicament qui est en fait meilleur que celui existant mais nous n'avons pas pu le prouver.


Selon cette logique, ne pas rejeter une vraie hypothèse nulle ne devrait pas être un vrai positif. Ce devrait être une erreur parce que nous ne faisons pas ce que nous sommes censés faire lorsque l'hypothèse nulle est vraie.
Sanket Kedia

1
Pourquoi dis-tu ça? Bien sûr, nous faisons ce que nous sommes censés faire lorsque l'hypothèse nulle est vraie - nous restons avec le comportement actuel, ce qui est la bonne chose à faire en supposant que l'hypothèse nulle est vraie.
Zahava Kor

Relier NHST aux actions qui en découlent, comme le fait Zahava Kor ici, semble le moyen le plus simple et le plus direct d'apprécier les erreurs de type II comme des «erreurs». Dans certains contextes, comme celui du développement de médicaments que Zahava Kor cite spécifiquement, le NHST est intégré dans un plan d'action tel que le résultat épistémique du test détermine les actions. En ce qui concerne la médecine en général, cela aide à apprécier les magnifiques mots dangereux de
David

4

La façon dont nous voulons utiliser le mot «erreur» est en fin de compte une question sémantique et des personnes raisonnables pourraient être en désaccord sur le point de savoir si, et dans quel sens, nous devrions considérer un faux négatif comme une erreur .

  • D'une part, je pense que vous avez raison de dire qu'un résultat non significatif signifie simplement que nous n'avons pas suffisamment d'informations pour être sûr que l'hypothèse nulle est fausse, et que cela n'implique pas logiquement que l'hypothèse nulle est vraie ( cf., Pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le nul» au lieu d'accepter l'hypothèse nulle? ). Ainsi, compte tenu du niveau de confiance dont vous avez besoin dans votre situation et du niveau d'ambiguïté de vos données, vous avez pris la bonne décision dans le sens d'avoir correctement appliqué la règle que vous aviez décidé.
  • D'un autre côté, si vous vous mettez dans la position de quelqu'un qui planifie une étude. Ils veulent savoir si le null est faux. Si c'est vraiment faux, ils veulent s'éloigner une fois l'étude terminée après avoir rejeté l'hypothèse nulle. Au lieu de cela, ils resteraient peu clairs sur la question et devraient peut-être concevoir et exécuter une autre étude. De ce point de vue, ne pas rejeter un faux nul est définitivement un résultat sous-optimal.

3
+1. Mais il pourrait être approprié d'évoquer le problème de Fisher vs Neyman-Pearson ici (je vais vous lier à votre propre bonne réponse à ce sujet: stats.stackexchange.com/questions/23142 ). OP pose la question dans ce qui semble être le paradigme des pêcheurs. Mais l'erreur de type II est un concept du paradigme Neyman-Pearson. D'où, je crois, la confusion d'OP.
amoeba

1

Le mot «échec» est proche de «erreur».

Pour moi, le terme erreur a du sens, car vous pouvez calculer une probabilité qu'il se produise (à condition de définir une certaine taille d'effet minimale qu'il serait souhaitable de détecter). Et vous voulez calculer cette probabilité dans les situations où vous voulez qu'elle soit petite. Dans ces situations, l'échec serait considéré comme une erreur.

Pour moi, c'est très symétrique avec les erreurs de type I.

Comme les valeurs de p, qui se rapportent à une erreur de type I, vous pouvez également calculer la probabilité pour (faussement) de ne pas rejeter l'hypothèse nulle. Pour une taille d'effet donnée et un test donné (par exemple, le nombre de mesures), vous pouvez calculer avec quelle probabilité cette «défaillance» pourrait se produire.

Ces pensées ne nécessitent que vous définissez une limite pour l'hypothèse nulle.

La tendance à ne pas considérer les erreurs de type II, ou du moins à fournir les limites de la taille de l'effet qui auraient pu être détectées avec une probabilité suffisante, est grande dans un monde scientifique obsédé par les valeurs de p, la signification et les tests d'hypothèse (l'inverse se produit également en mettant l'accent sur les effets mineurs qui se sont avérés importants, uniquement par un grand nombre de mesures). Sip est plus grand que certains αalors l'effet est dit / considéré comme non présent (ou plus élégamment non montré comme étant présent). De toute façon , il influence certainement nos actions futures comme si nous acceptons laH0.


1
En fait, la vraie erreur est de faire des tests d'hypothèse.
Sextus Empiricus
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.