Les études insuffisantes ont-elles augmenté la probabilité de faux positifs?


23

Cette question a été posée avant ici et ici mais je ne pense pas que les réponses répondent directement à la question.

Les études insuffisantes ont-elles augmenté la probabilité de faux positifs? Certains articles de presse font cette affirmation. Par exemple :

Une faible puissance statistique est une mauvaise nouvelle. Les études insuffisantes sont plus susceptibles de manquer des effets réels, et en tant que groupe, elles sont plus susceptibles d'inclure une proportion plus élevée de faux positifs - c'est-à-dire des effets qui atteignent une signification statistique même s'ils ne sont pas réels.

Si je comprends bien, la puissance d'un test peut être augmentée par:

  • augmenter la taille de l'échantillon
  • ayant une taille d'effet plus grande
  • augmenter le niveau de signification

En supposant que nous ne voulons pas changer le niveau de signification, je pense que la citation ci-dessus fait référence à la modification de la taille de l'échantillon. Cependant, je ne vois pas comment une diminution de l'échantillon devrait augmenter le nombre de faux positifs. En termes simples, la réduction de la puissance d'une étude augmente les risques de faux négatifs, ce qui répond à la question:

P(défaut de rejet H0|H0 c'est faux)

Au contraire, les faux positifs répondent à la question:

P(rejeter H0|H0 est vrai)

Les deux sont des questions différentes parce que les conditions sont différentes. La puissance est (inversement) liée aux faux négatifs mais pas aux faux positifs. Suis-je en train de manquer quelque chose?


4
Ce n'est pas le taux de faux positifs qui dépend de la puissance statistique, mais le "taux de fausses découvertes":P(H0est vrai|rejeterH0)
Jake Westfall

2
Oui, cela semble être l'interprétation correcte de la déclaration dans l'article Wired.
Robert Smith,

Réponses:


30

Vous avez raison en ce que la taille de l'échantillon affecte la puissance (c'est-à-dire 1 - erreur de type II), mais pas l'erreur de type I. C'est un malentendu courant qu'une valeur de p en tant que telle (correctement interprétée) est moins fiable ou valide lorsque la taille de l'échantillon est petite - l'article très divertissant de Friston 2012 a une version amusante de cela [1].

Cela étant dit, les problèmes liés aux études insuffisantes sont réels, et la citation est largement correcte, je dirais, mais un peu imprécise dans son libellé.

Le problème de base des études sous-alimentées est que, bien que le taux de faux positifs (erreur de type I) dans les tests d'hypothèse soit fixe, le taux de vrais positifs (puissance) diminue. Par conséquent, un résultat positif (= significatif) est moins susceptible d'être un vrai positif dans une étude de faible puissance. Cette idée s'exprime dans le taux de fausses découvertes [2], voir aussi [3]. C'est ce à quoi la citation fait référence.

Un problème supplémentaire souvent évoqué concernant les études insuffisantes est qu'elles conduisent à des tailles d'effet surestimées. La raison en est que a) avec une puissance inférieure, vos estimations des effets réels deviendront plus variables (stochastiques) autour de leur valeur réelle, et b) seuls les plus forts de ces effets passeront le filtre de signification lorsque la puissance est faible. Il faut ajouter cependant qu'il s'agit d'un problème de notification qui pourrait facilement être résolu en discutant et en signalant tous les effets et pas seulement les effets significatifs.

Enfin, un problème pratique important avec des études insuffisantes est que la faible puissance augmente les problèmes statistiques (par exemple le biais des estimateurs) ainsi que la tentation de jouer avec les variables et les tactiques de piratage p similaires. L'utilisation de ces «degrés de liberté du chercheur» est plus efficace lorsque la puissance est faible, et CECI peut après tout augmenter l'erreur de type I, voir, par exemple, [4].

Pour toutes ces raisons, je serais donc effectivement sceptique quant à une étude insuffisante.

[1] Friston, K. (2012) Dix règles ironiques pour les examinateurs non statistiques. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Bouton, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Panne de courant: pourquoi la petite taille de l'échantillon mine la fiabilité des neurosciences. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Psychologie des faux positifs: une flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter n'importe quoi comme significatif. Psychol Sci., 22, 1359-1366.


Merci. Excellentes références. Pour être complet, [1] peut être trouvé ici et [3] est disponible ici . Lorsque vous parlez de taux de fausses découvertes, êtes-vous sûr que c'est le bon concept? Sur la base de [3], vous vouliez peut-être dire la valeur prédictive positive (PPV) dans laquelle les études sous-alimentées ont un PPV plus faible (c'est-à-dire que les vrais positifs ne sont pas aussi fréquents qu'ils devraient l'être dans une étude à forte puissance). le complément de PPV.
Robert Smith

D'après ce que je comprends, ces concepts sont identiques, PPV = 1-FDR. Je préfère l'utilisation du FDR parce que je trouve le mot intuitivement plus compréhensible.
Florian Hartig


2
Tal Yarkoni souligne toutes les mauvaises choses à propos de l'article Freston ici .
jona

1
@jona - Je pense que Tal Yarkoni soulève de bons points dans son article de blog. Je suppose que le résumé d'une phrase serait "la faible consommation est un problème", ce qui est exactement ce que je dis ci-dessus. Je trouve toujours la caricature de Friston des commentaires des critiques drôle, car il arrive que les critiques "trouvent la taille de l'échantillon trop faible" sans argument convaincant qui implique d'avoir calculé la puissance.
Florian Hartig du

6

Selon la façon dont vous le regardez, une faible puissance peut augmenter les taux de faux positifs dans des scénarios donnés.

Considérez ce qui suit: un chercheur teste un traitement. Si le test revient insignifiant, ils l'abandonnent et passent au traitement suivant. Si le test revient significatif, ils le publient. Considérons également que le chercheur testera certains traitements qui fonctionnent et d'autres qui ne fonctionnent pas. Si le chercheur a un pouvoir élevé (se référant bien sûr au cas où il teste un traitement qui fonctionne), il est très probable qu'il s'arrête une fois qu'il teste un traitement efficace. D'un autre côté, avec une faible puissance, ils risquent de manquer le véritable effet du traitement et de passer à d'autres traitements. Plus ils testent de traitements nuls, plus ils sont susceptibles de commettre une erreur de type I (ce chercheur ne tient pas compte des comparaisons multiples). En cas de faible puissance, ils devraient tester de nombreux autres traitements nuls,

Vous pourriez dire "eh bien, ce n'est qu'un chercheur abusant de comparaisons multiples!". Eh bien, c'est peut-être vrai, mais c'est aussi ainsi que beaucoup de recherches se font de nos jours. Pour toutes ces raisons, personnellement, j'ai peu confiance dans les travaux publiés, à moins que leur échantillon ne soit suffisamment grand pour que le chercheur ne puisse se permettre de répéter la même expérience un grand nombre de fois.


1
Merci. Même en ignorant le cas des comparaisons multiples (sans corrections appropriées), je pense que vous décrivez une autre instance de PPV comme décrit ici . Je ne peux pas coller le paragraphe mais il commence par ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith

1
Ah oui, cela décrit de très près ce à quoi je faisais référence. La plus petite distinction est que je dis "Dans une procédure expérimentale donnée , avoir une faible puissance individuelle à chaque test d'un effet réel augmente les chances d'utiliser une erreur de type I dans l'ensemble de notre procédure expérimentale ". Ceci est bien sûr différent de l'augmentation du taux d'erreur de type I dans chaque test statistique. De plus, ce n'est que dans le sens le plus technique différent du PPV. Mais c'est la seule façon dont la déclaration médiatique "faible puissance augmente les erreurs de type I" est logique (et je pense que cela a beaucoup de sens).
Cliff AB

4

Une faible puissance ne peut pas affecter le taux d'erreur de type 1, mais cela peut affecter la proportion de résultats publiés qui sont des erreurs de type 1.

La raison en est qu'une faible puissance réduit les chances d'un rejet correct de H0 (erreur de type 2) mais pas les chances d'un faux rejet de H0 (erreur de type 1).

Supposons une seconde qu'il y a deux littératures ... l'une conduite avec une puissance très faible - proche de zéro - et l'autre conduite avec une puissance adéquate. Dans les deux littératures, vous pouvez supposer que lorsque H0 est faux, vous obtiendrez toujours des faux positifs parfois (par exemple, 5% pour alpha = 0,05). En supposant que les chercheurs ne sont pas toujours corrects dans leurs hypothèses, nous pouvons supposer que les deux littératures devraient avoir un NOMBRE similaire d'erreurs de type 1, de bonne puissance ou non. En effet, le taux d'erreurs de type 1 n'est pas affecté par la puissance, comme d'autres l'ont dit.

Cependant, dans la littérature avec une puissance FAIBLE, vous auriez également beaucoup d'erreurs de type 2. En d'autres termes, la littérature de faible puissance devrait manquer de rejets corrects de H0, faisant des erreurs de type 1 une plus grande proportion de la littérature. Dans la littérature de haute puissance, vous devriez avoir un mélange de rejets corrects et incorrects de H0.

Alors, la faible puissance augmente-t-elle les erreurs de type 1? Non. Cependant, il est plus difficile de trouver des effets réels, faisant des erreurs de type 1 une proportion plus importante des résultats publiés.


1
Merci. Et le PPV? Dans l' article référencé par Florian Hartig, il y a l'affirmation que, étant donné une erreur de type I, plus la puissance est faible, plus le PPV est faible. Si le PPV est inférieur, ce qui signifie que le nombre de vraies découvertes revendiquées est inférieur, alors le nombre de fausses découvertes revendiquées (faux positifs) devrait augmenter.
Robert Smith

0

En plus des autres réponses, une étude est généralement sous-alimentée lorsque la taille de l'échantillon est petite. Il existe de nombreux tests qui ne sont valides qu'asymptotiquement, et trop optimistes ou conservateurs pour les petits n.

D'autres tests ne sont valables pour des échantillons de petite taille que si certaines conditions sont remplies, mais deviennent plus robustes avec un échantillon de grande taille (par exemple, test t).

Dans ces deux cas, la petite taille de l'échantillon et l'hypothèse non satisfaite peuvent entraîner une augmentation du taux d'erreur de type I. Ces deux situations se produisent suffisamment souvent pour que je considère que la vraie réponse à votre question n'est pas en théorie mais en pratique.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.