Pourquoi les tests d'hypothèses fréquentistes deviennent-ils biaisés en faveur du rejet de l'hypothèse nulle avec des échantillons suffisamment grands?

Je venais de lire cet article sur le facteur Bayes pour un problème totalement sans rapport lorsque je suis tombé sur ce passage

Les tests d’hypothèses avec des facteurs Bayes sont plus robustes que les tests d’hypothèses fréquentistes, dans la mesure où la forme bayésienne évite les biais de sélection de modèle, évalue les preuves en faveur de l’hypothèse nulle, inclut l’incertitude des modèles et permet la comparaison de modèles non imbriqués avoir la même variable dépendante). De plus, les tests de signification fréquentistes deviennent biaisés en faveur du rejet de l'hypothèse nulle avec une taille d'échantillon suffisamment grande. [emphase ajoutée]

J'ai déjà vu cette affirmation dans l'article de Karl Friston en 2012 dans NeuroImage , où il l'appelle l' erreur de l'inférence classique .

J'ai eu un peu de difficulté à trouver un compte vraiment pédagogique expliquant pourquoi cela devrait être vrai. Plus précisément, je me demande:

pourquoi cela se produit
comment se prémunir
à défaut, comment le détecter

hypothesis-testing frequentist

— blz
source

C'est un peu discutable car c'est faux quand le null est littéralement, tout à fait vrai, mais comme c'est rarement le cas (en raison de toutes sortes de complexités telles que des corrélations parasites), c'est probablement vrai pour la plupart des applications pratiques. Hypothétiquement, on pourrait détecter la plus faible des corrélations parasites (par exemple, r = 0,001) grâce à une chaîne de médiateurs de plusieurs centaines de variables malgré un nombre similaire de modérateurs non contrôlés si l'échantillon était suffisamment colossal. On peut soutenir que cette relation existe réellement, alors savoir si c'est vraiment un "parti pris" reste un peu discutable ...

— Nick Stauner

@ NickStauner, Ah ça a beaucoup de sens! Merci pour l'explication intuitive!

— blz

Tal Yarkoni a écrit une critique très édifiante de l'article de Friston

— jona

@jona, on dirait que je me heurte à toute la foule cogsci par ici =) Merci pour la référence, cela ressemble vraiment à une bonne lecture!

— blz

Compte tenu des hypothèses retenues, cette affirmation semble être strictement fausse en l'état, mais elle pose un problème réel (avec des échantillons suffisamment grands, un NHST sera presque certain de rejeter un faux null, si minime soit-il l'effet) . Lorsque les personnes constatent un problème, cela signifie généralement que les tests d'hypothèse ne sont pas ce dont ils ont besoin. La même question de base (bien que formulée en termes d’IC plutôt que de tests d’hypothèses) est abordée dans cette réponse

— Glen_b

Réponses:

Réponse à la question 1: Cela est dû au fait que la valeur devient arbitrairement petite à mesure que la taille de l'échantillon augmente dans les tests de fréquentation (les tests avec une hypothèse nulle sans différence / avec une forme ou une autre d'égalité) lorsqu'une différence réelle est exactement égale à zéro . contrairement à un arbitraire proche de zéro, ce n’est pas réaliste (voir le commentaire de Nick Stauner au PO). La valeur devient arbitrairement petite car l'erreur des statistiques de test fréquentiste diminue généralement avec la taille de l'échantillon, avec pour résultat que toutes les différences sont significatives à un niveau arbitraire avec une taille d'échantillon suffisamment grande . Cosma Shalizi a très bien écrit à ce sujet . $p$ $p$

Réponse à la question 2: Dans un cadre de test d’hypothèses fréquentistes, on peut se protéger de ce fait en ne tirant pas d’inférence uniquement sur la détection d’une différence . Par exemple, on peut combiner des inférences sur la différence et l' équivalence de manière à ne pas favoriser (ou ne pas confondre!) Le fardeau de la preuve sur la preuve de l'effet par rapport à la preuve de l'absence d'effet . La preuve de l'absence d'un effet provient, par exemple:

deux tests unilatéraux d'équivalence (TOST),
uniformément les tests les plus puissants d'équivalence , et
l'approche de l'équivalence par l'intervalle de confiance (c'est-à-dire si l' IC à % de la statistique de test se situe dans la plage d'équivalence / pertinence définie a priori , on conclut alors l'équivalence au niveau de signification ). $1-2\alpha$ $\alpha$

Toutes ces approches partagent une décision a priori sur la taille de l'effet qui constitue une différence pertinente et une hypothèse nulle exprimée en termes de différence au moins aussi grande que ce qui est considéré comme pertinent.

La déduction combinée de tests de différence et de tests d'équivalence protège donc contre le biais que vous décrivez lorsque la taille des échantillons est grande (tableau deux par deux montrant les quatre possibilités résultant des tests de différence combinés - hypothèse nulle positiviste, H - et équivalence - hypothèse nulle négativiste, H ): $_{0}^{+}$ $_{0}^{-}$

Quatre possibilités parmi les tests combinés de différence et les tests d'équivalence

Remarquez le quadrant supérieur gauche: un test surpuissant est celui où oui vous rejettent l'hypothèse nulle d'absence de différence, mais vous rejetez aussi l'hypothèse nulle de différence pertinente, donc oui il y a une différence, mais vous avez a priori que vous avez décidé ne se soucient pas c'est parce que c'est trop petit.

Réponse à la question 3: Voir la réponse à la question 2.

— Alexis
source

Les réponses comme celle-ci sont la raison pour laquelle je continue à venir ici. Je vous remercie!

— blz

Ces tests combinés sont appelés "tests de pertinence" et ne sont que peu étudiés. Cependant, une décision de pertinence (conservatrice) peut être trouvée si l'on rejette l'hypothèse Null si et seulement si l' intervalle de confiance habituel de est écarté de la région de pertinence. Ainsi, @Alexis, en cas de test de pertinence, vous prenez , en cas de test d'équivalence, vous prenez .

1 - α

$1-\alpha$

α

$\alpha$

2 α

$2\alpha$

— Horst Grünbusch le

Pour compléter la réponse à la question 1, un article de blog pertinent de Cosma Shalizi

Je suis un peu surpris que tout le monde trouve cette question si utile, bien que Michael Lew - Alexis réponde beaucoup mieux à la "Réponse à la question 1", car il semble presque évident que cela restera en place, vous pourriez peut-être corriger votre réponse. Dire que mathématiquement parlant, les tests d'hypothèses ne sont en réalité pas influencés par la taille de l'échantillon, conformément à la définition normale du biais (l'inverse est en fait vrai, la petite taille de l'échantillon peut poser problème)!

— Florian Hartig

Je comprends le problème et je suis d’accord avec l’évaluation - il est peu informatif ou trompeur de faire un test d’hypothèse quand! H0 est infiniment probable en premier lieu et que vous avez une puissance proche de 1. Mais cela ne rend pas le test biaisé, à moins que votre définition du biais ne soit qu'une méthode donne le bon résultat à une question qui, selon vous, ne devrait pas être posée.

— Florian Hartig le

Les tests Frequentist avec des échantillons volumineux NE montrent PAS de biais pour rejeter l'hypothèse nulle si l'hypothèse nulle est vraie. Si les hypothèses du test sont valides et que l'hypothèse nulle est vraie, il n'y a pas plus de risque qu'un grand échantillon conduise à un rejet de l'hypothèse nulle à un petit échantillon. Si la valeur NULL n’est pas vraie, nous serions certainement ravis de la rejeter. Par conséquent, le fait qu’un grand échantillon rejette plus fréquemment une fausse valeur nulle qu’un petit échantillon n’est pas un «biais», mais un comportement approprié.

La crainte des «expériences surpuissantes» repose sur l'hypothèse qu'il n'est pas bon de rejeter l'hypothèse nulle lorsqu'elle est presque vraie. Mais si ce n'est que presque vrai, alors c'est en réalité faux! Rejetez, mais ne manquez pas de noter (et de signaler clairement) l'ampleur de l'effet observé. Elle est peut-être triviale et ne mérite donc pas d’être sérieusement prise en compte, mais une décision à ce sujet doit être prise après examen des informations fournies en dehors du test d’hypothèse.

— Michael Lew
source

La croyance que le test fréquentiste n'est pas biaisé en faveur du rejet de l'hypothèse nulle à mesure que la taille de l'échantillon croît repose sur l'hypothèse que est significativement et substantiellement différent de .

0

$0$

0 + really frickin' tiny

$0 + \text{really frickin' tiny}$

— Alexis

@Alexis Lisez le deuxième paragraphe à nouveau. Je suis tout à fait d’accord pour dire que vraiment minable n’est pas important, mais il n’est pas non plus logiquement nul.

— Michael Lew

Désolé pour un commentaire qui n'a aucune valeur pour le public, mais @ MichaelLew, j'ai vraiment aimé votre réponse. La première phrase est assez importante et je ne pense pas qu'elle ait été élucidée efficacement dans la réponse d'Alexis (ce qui est bien aussi, bien sûr).

— Richard Hardy