Il existe une certaine école de pensée selon laquelle l'approche la plus répandue du test statistique est un "hybride" entre deux approches: celle de Fisher et celle de Neyman-Pearson; La revendication affirme que ces deux approches sont "incompatibles" et que, par conséquent, "hybride" est un "méli-mélo incohérent". Je fournirai une bibliographie et quelques citations ci-dessous, mais pour l’instant, il suffit de dire que l’article sur les tests d’hypothèses statistiques contient de nombreuses informations à ce sujet . Ici sur CV, ce point a été répété à plusieurs reprises par @Michael Lew (voir ici et ici ).
Ma question est la suivante: pourquoi les approches F et NP sont-elles considérées comme incompatibles et pourquoi l'hybride est-il prétendu incohérent? Notez que j'ai lu au moins six articles anti-hybrides (voir ci-dessous), mais que je ne comprends toujours pas le problème ou l'argument. Notez également que je ne suggère pas de débattre si F ou NP est une meilleure approche; Je ne propose pas non plus de discuter de cadres fréquentistes ou bayésiens. Au lieu de cela, la question est la suivante: en acceptant que F et NP soient des approches valables et significatives, qu’en est-il de leur comportement hybride?
Voici comment je comprends la situation. L'approche de Fisher consiste à calculer la valeur et à la prendre comme une preuve contre l'hypothèse nulle. Plus le p est petit , plus la preuve est convaincante. Le chercheur est censé combiner ces preuves avec ses connaissances de base, décider si elles sont suffisamment convaincantes et procéder en conséquence. (Notez que les points de vue de Fisher ont changé au fil des ans, mais c'est ce vers quoi il semble avoir finalement convergé.) En revanche, l'approche de Neyman-Pearson consiste à choisir α à l' avance et à vérifier ensuite si p ≤ α; si tel est le cas, appelez-le significatif et rejetez l'hypothèse nulle (j'omets ici une grande partie de l'histoire de NP qui n'a aucune pertinence pour la discussion en cours). Voir aussi une excellente réponse de @gung dans Quand utiliser les frameworks Fisher et Neyman-Pearson?
L'approche hybride consiste à calculer la valeur , à la signaler (en supposant implicitement que le plus petit est le meilleur) et à appeler les résultats significatifs si p ≤ α (généralement α = 0,05 ) et non significatifs dans le cas contraire. Ceci est supposé être incohérent. Comment peut-il être invalide de faire deux choses valides simultanément, me bat.
Comme particulièrement incohérente la vue anti-hybrideurs la pratique généralisée des rapports -values comme p < 0,05 , p < 0,01 ou p < 0,001 (ou même p « 0,0001 ), où toujours l'inégalité la plus forte est choisie. L’argument semble être que (a) la force de la preuve ne peut pas être correctement évaluée, car p exact n’est pas rapporté, et (b) les gens ont tendance à interpréter le nombre de droite dans l’inégalité comme α et à le considérer comme un taux d’erreur de type I et c'est faux. Je ne vois pas un gros problème ici. Tout d'abord, en rapportant exactement pC’est certainement une meilleure pratique, mais personne ne se soucie vraiment de si est par exemple 0,02 ou 0,03 , donc l’arrondir sur une échelle logarithmique n’est pas si mauvais (et aller au-dessous de ∼ 0,0001 n’a aucun sens de toute façon, voir Comment faut-il signaler de très petites valeurs p ? ) Deuxièmement, si le consensus est d'appeler tout ce qui est inférieur à 0,05 significatif, alors le taux d'erreur sera α = 0,05 et p ≠ α , comme l'explique @gung dans Interprétation de la valeur p dans les tests d'hypothèses.. Même s'il s'agit d'un problème potentiellement déroutant, cela ne me semble pas plus déroutant que d'autres problèmes liés aux tests statistiques (en dehors de l'hybride). En outre, chaque lecteur peut avoir à l'esprit son propre préféré lors de la lecture d'un document hybride, et son propre taux d'erreur en conséquence. Alors, quel est le problème?
L'une des raisons pour lesquelles je veux poser cette question est qu'il est vraiment pénible de voir combien de l'article de Wikipédia sur les tests d'hypothèses statistiques est consacré à la lambasting hybride. Après Halpin & Stam, il affirme qu’un certain Lindquist est à blâmer (il existe même un grand scan de son manuel avec des "erreurs" surlignées en jaune), et bien sûr l’article du wiki sur Lindquist lui-même commence par la même accusation. Mais alors, peut-être me manque quelque chose.
Références
Gigerenzer, 1993, Le Surmoi, le Moi et l'Id dans le raisonnement statistique - a introduit le terme "hybride" et l'a appelé "méli-mélo incohérent"
- Voir aussi les expositions plus récentes de Gigerenzer et al.: Par exemple, Mindless Statistics (2004) et The Null Ritual. Ce que vous avez toujours voulu savoir sur le test d'importance sans jamais oser le demander (2004).
Goodman, 1999, Vers des statistiques médicales fondées sur des preuves. 1: L'erreur sophistique
Halpin & Stam, 2006, Inférence inductive ou comportement inductif: approches de Fisher et Neyman-Pearson concernant les tests statistiques en recherche psychologique (1940-1960) [gratuit après inscription] - reproche au manuel de Lindquist, 1940, d'avoir introduit l'approche "hybride"
@Michael Lew, 2006, Mauvaise pratique statistique en pharmacologie (et dans d'autres disciplines biomédicales de base): vous ne connaissez probablement pas P - une belle revue et vue d'ensemble
Citations
Gigerenzer: Ce qui est devenu institutionnalisé en tant que statistique inférentielle en psychologie n'est pas une statistique de pêcheur. C'est un méli-mélo incohérent de certaines des idées de Fisher, d'une part, et de celles de Neyman et de ES Pearson, de l'autre. Je fais référence à ce mélange en tant que "logique hybride" de l'inférence statistique.
Goodman: L’approche de test d’hypothèse [Neyman-Pearson] offrait aux scientifiques un marché faustien - un moyen apparemment automatique de limiter le nombre de conclusions erronées à long terme, mais uniquement en abandonnant la capacité de mesurer les preuves [à la Fisher] et d’évaluer la vérité d'une seule expérience.
avec le test d'hypothèse de Neyman-Pearson dans lequel il est devenu intégré. [...] Par exemple, Gibbons et Pratt [...] ont déclaré à tort: "Le fait de déclarer une valeur P, qu'elle soit exacte ou dans un intervalle, permet en effet à chaque individu de choisir son propre niveau d'importance comme probabilité maximale tolérable. d'une erreur de type I. "
Halpin & Stam: Le texte de Lindquist datant de 1940 était une source originale de l'hybridation des approches Fisher et Neyman-Pearson. [...] plutôt que de s'en tenir à une interprétation particulière des tests statistiques, les psychologues sont restés ambivalents, voire méconnus, des difficultés conceptuelles soulevées par la controverse Fisher et Neyman-Pearson.
Lew: Ce que nous avons est une approche hybride qui ne contrôle ni les taux d'erreur ni l'évaluation de la force de la preuve.