Quand et comment éviter une utilisation inappropriée du test exact de Fisher

Quelqu'un pourrait-il expliquer pourquoi Richard McElreath dit que le test exact de Fisher est rarement utilisé de manière appropriée dans son excellent livre d'introduction bayésienne ( Statistical Rethinking )?

Pour référence, le contexte est ci-dessous:

Pourquoi les tests ne sont-ils pas suffisants pour une recherche innovante? Les procédures classiques des statistiques d'introduction ont tendance à être inflexibles et fragiles. Par inflexible, je veux dire qu'ils ont des moyens très limités de s'adapter à des contextes de recherche uniques. Par fragile, je veux dire qu'ils échouent de manière imprévisible lorsqu'ils sont appliqués à de nouveaux contextes. Cela est important, car aux frontières de la plupart des sciences, il n'est presque jamais clair quelle procédure est appropriée. Aucun des golems traditionnels n'a été évalué dans de nouveaux contextes de recherche, et il peut donc être difficile d'en choisir un puis de comprendre comment il se comporte.Un bon exemple est le test exact de Fisher, qui s'applique (exactement) à un contexte empirique extrêmement étroit, mais est régulièrement utilisé lorsque le nombre de cellules est faible. J'ai personnellement lu des centaines d'utilisations du test exact de Fisher dans des revues scientifiques, mais en dehors de son utilisation originale par Fisher, je ne l'ai jamais vu utilisé correctement. Même une procédure comme la régression linéaire ordinaire, qui est assez flexible à bien des égards, pouvant encoder une grande diversité d'hypothèses intéressantes, est parfois fragile. Par exemple, s'il y a une erreur de mesure importante sur les variables de prédiction, la procédure peut échouer de manière spectaculaire. Mais plus important encore, il est presque toujours possible de faire mieux que la régression linéaire ordinaire, en grande partie à cause d'un phénomène connu sous le nom de sur-ajustement.

hypothesis-testing bayesian fishers-exact

— hanice
source

Voir stats.stackexchange.com/q/136584/17230 . Lorsque le test exact de Fisher est approprié est discutable - il y a certainement eu un débat depuis que Fisher l'a proposé.

— Scortchi - Réintégrer Monica

Un excellent aperçu récent de ce sujet et des controverses est donné par Choi et al. (2015): Élucider les fondements de l'inférence statistique avec des tableaux 2x2 .

— COOLSerdash

@COOLSerdash: C'est une merveilleuse trouvaille, et contient la réponse que j'aimerais avoir écrite, libérée des contraintes de temps et de puissance cérébrale; et bien plus encore. Aussi toutes ou la plupart des références que je voudrais donner; Je vais voir si j'en ai plus et les ajouter à ma réponse.

— Scortchi - Réintégrer Monica

Il est difficile de lire cette citation et de ne pas supposer que l'auteur considère comme une simple erreur d'utiliser le test exact de Fisher lorsque les totaux marginaux d'un tableau de contingence ne sont pas fixés par conception. "L'usage original de Fisher" du test doit se référer à la célèbre dame dégustant du thé qui "a été informée à l'avance de la composition du test, à savoir qu'on lui demandera de goûter huit tasses, qu'il s'agira de quatre de chaque type, [...] "(Fisher (1935), La conception des expériences ); ^† puis «un contexte empirique extrêmement étroit» est analysé comme «un plan d'échantillonnage applicable à quelques études menées dans la pratique».

Mais ce n'est pas une erreur: conditionner la statistique suffisante pour la distribution des données sous l'hypothèse nulle est une technique standard pour éliminer les paramètres de nuisance et proposer des tests de la bonne taille (c'est la base des tests de permutation). Les totaux marginaux contiennent très peu d'informations que vous pouvez utiliser pour estimer le paramètre d'intérêt, le rapport de cotes; et plutôt beaucoup sur la précision avec laquelle vous pouvez l'estimer: l'argument est que l'espace d'échantillonnage obtenu en conditionnant sur les deux est beaucoup plus pertinent pour l'inférence que celui obtenu en conditionnant sur une seule, ou sur le nombre total uniquement. C'est un espace d'échantillonnage horriblement grossier, entraînant une perte de puissance lamentable. Comment la pertinence de l'espace d'échantillonnage doit-elle être mise en balance avec la perte d'informations? Dans quelle mesure le grossissement de l'espace d'échantillonnage est-il acceptable avant qu'un test asymptotiquement valide ou inconditionnel soit préféré? Ce sont des questions contrariantes, et l'analyse des tableaux de contingence deux par deux est controversée depuis un demi-siècle ou plus.

Étant donné que cela vient d'un texte bayésien, je pense que l'auteur a raté une occasion de se moquer des dilemmes qu'un engagement à utiliser des méthodes fréquentistes peut conduire à - comme Jaynes le fait dans Probability Theory: The Logic of Science

† Dans un article publié la même année que son livre, il a utilisé un exemple dans lequel, bien que le plan d'échantillonnage ne soit pas explicitement donné, au plus une marge aurait pu être fixée à l'avance, et très probablement, seul le nombre total a été fixé. Les jumeaux de même sexe de criminels condamnés sont classés comme monozygotes vs dizygotes et comme condamnés pour des crimes eux-mêmes vs non condamnés dans un tableau deux par deux (Fisher (1935), "The Logic of Inductive inference", JRSS, 98 , 1, pp 39–82). [Edit: Les données proviennent de Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventing the Criminal: A History of German Criminology, 1880–1945 , p 162] décrit la procédure de collecte de données de Lange; il'

— Scortchi - Réintégrer Monica
source