Pourquoi le biais est-il affecté lorsqu'un essai clinique prend fin à un stade précoce?


24

Une analyse intermédiaire est une analyse des données à un ou plusieurs moments avant la clôture officielle de l'étude dans le but, par exemple, de mettre éventuellement fin à l'étude plus tôt.

Selon Piantadosi, S. ( Essais cliniques - une perspective méthodologique ): " L'estimation d'un effet du traitement sera biaisée lorsqu'un essai se terminera à un stade précoce. Plus la décision est précoce, plus le biais est important. "

Pouvez-vous m'expliquer cette affirmation. Je peux facilement comprendre que la précision va être affectée, mais l'affirmation concernant le biais n'est pas évidente pour moi ...


Je pense que c'est une question parfaite pour "étoffer" les différences entre la méthodologie bayésienne et fréquemmentiste
probabilitéislogic

Réponses:


13

Tout d'abord, vous devez noter le contexte: cela ne s'applique que lorsque l'essai a été arrêté tôt en raison d'une surveillance intermédiaire montrant l'efficacité / la futilité, et non pour une raison extérieure aléatoire. Dans ce cas, l' estimation de la taille de l'effet sera biaisée dans un sens complètement statistique. Si vous vous êtes arrêté pour l'efficacité, l'effet estimé sera trop élevé (en supposant qu'il est positif), si vous vous êtes arrêté pour la futilité, il sera trop faible.

Piantodosi donne également une explication intuitive (Sec 10.5.4 dans mon édition). Supposons que la vraie différence entre deux moyennes soit de 1 unité. Lorsque vous exécutez de nombreux essais et que vous les examinez au moment de votre analyse intermédiaire, certains d'entre eux auront observé des tailles d'effet bien supérieures à 1, d'autres bien inférieures à 1, et la plupart autour de 1 - la distribution sera large, mais symétrique. La taille estimée de l'effet à ce stade ne serait pas très précise, mais serait non biaisée. Cependant, vous ne vous arrêtez et ne signalez une taille d'effet que si la différence est significative (ajustée pour plusieurs tests), c'est-à-dire que l'estimation est élevée. Dans tous les autres cas, vous continuez et ne déclarez pas d'estimation. Cela signifie que condition d'avoir arrêté tôt, la distribution de la taille de l'effet n'est pas symétrique et sa valeur attendue est supérieure à la valeur réelle de l'estimation.

Le fait que cet effet soit plus sévère au début provient du plus grand obstacle à l'arrêt de l'essai, donc une plus grande partie de la distribution est jetée pendant le conditionnement.


1
Au début, je pensais cela aussi, mais quand je me suis assis pour le prouver, je ne pouvais pas: je pouvais seulement montrer que l'estimation résultante était en fait non biaisée. (Nouvelle intuition: le biais positif d'un arrêt conditionnel équilibre un biais négatif de la réalisation de l'expérience à son terme.) Donc: pouvez-vous présenter une démonstration plus rigoureuse?
whuber

@whuber Je vais essayer de l'écrire, mais le fait est que la déclaration de Piantodosi concerne uniquement ce qui se passe lorsque vous vous arrêtez tôt. Il n'y a pas d'achèvement pour l'équilibrer.
Aniko

2
@whuber Oui, c'est aussi ce que prétend la déclaration originale. Votre argument selon lequel il y aura un biais opposé conditionnel à l'achèvement de l'étude est également valable. Tout le message devrait être qu'une fois que vous commencez à faire une surveillance intermédiaire, des choses amusantes commencent à arriver à votre capacité à estimer la taille de l'effet.
Aniko

3
@Aniko Il devrait être possible d'ajuster le biais en cas de résiliation anticipée. Nous semblons donc discuter de l'utilisation naïve d'un estimateur standard, destiné à des échantillons aléatoires de taille fixe, dans des expériences à terminaison conditionnelle, où de tels estimateurs n'ont pas les propriétés souhaitées. (+1, au fait.)
whuber

2
@whuber Bien sûr, vous pouvez ajuster ce biais, mais vous devez d'abord reconnaître qu'il existe. Et puis vous devez vendre à l'investigateur que même si clairement 5 patients sur 10 ont répondu, le taux de réponse estimé est de 40% (nombre composé) après ajustement pour le biais dû à l'arrêt précoce.
Aniko

3

Voici une illustration de la façon dont le biais peut survenir dans les conclusions, et pourquoi ce n'est peut-être pas l'histoire complète. Supposons que vous ayez un essai séquentiel d'un médicament qui devrait avoir un effet positif (+1) mais peut avoir un effet négatif (-1). Cinq cobayes sont testés l'un après l'autre. La probabilité inconnue d'un résultat positif dans un seul cas est en fait et un résultat négatif . 13414

Donc, après cinq essais, les probabilités des différents résultats sont

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

la probabilité d'un résultat positif global est donc de 918/1024 = 0,896, et le résultat moyen est de +2,5. Divisé par les 5 essais, il s'agit d'une moyenne de +0,5 résultat par essai.

Il s'agit du chiffre non biaisé, car il est également .+1×34-1×14

Supposons que, pour protéger les cobayes, l'étude soit interrompue si, à un stade quelconque, le résultat cumulatif est négatif. Alors les probabilités deviennent

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

la probabilité d'un résultat positif global est donc de 702/1024 = 0,6885, et le résultat moyen est de +1,953. Si nous avons examiné la valeur moyenne des résultats par essai dans le calcul précédent, c'est-à-dire en utilisant , , , , et alors nous obtiendrions +0.184. +3+55 +1+35 -1+15 -1-15 -1-13-11

Ce sont les sens dans lesquels il y a biais en s'arrêtant tôt dans le deuxième schéma, et le biais est dans la direction prévue. Mais ce n'est pas toute l'histoire.

Pourquoi est-ce que whuber et probabiliste pensent que l'arrêt précoce devrait produire des résultats non biaisés? Nous savons que le résultat escompté des essais du deuxième schéma est +1,953. Le nombre prévu d'essais se révèle être de 3 906. Donc, en divisant l'un par l'autre, nous obtenons +0,5, exactement comme avant et ce qui a été décrit comme non biaisé.


vous prenez la perspective d'un monde "pré-data". Ce que vous dites est vrai, que la règle d'arrêt est importante, mais seulement avant de considérer les données . En effet, la règle d'arrêt fournit des informations sur les données, mais pas sur les vrais probabilités. Ainsi, une fois les données entrées, la règle d'arrêt n'a plus d'importance. Notez que les vrais probabilités sont inconnues dans l'expérience réelle. Vous devez donc également prendre en compte les situations où les probabilités sont, par exemple et , ainsi que toute autre combinaison possible. P(-)=3P(+)=14P(-)=34
probabilitéislogic

Je prends donc votre exemple comme indiquant que . C'est certainement vrai! Ma réponse conditionne également cependant. C'est parce que, si vous me dites la règle d'arrêt, mais pas si vous vous êtes réellement arrêté, je peux le comprendre à partir de l'ensemble de données que j'ai réellement. En fait, je peux déterminer si une règle d'arrêt se serait réellement arrêtée, une fois que je connais les données. DP(H|S,je)P(H|je)
probabilités du

1

Eh bien, mes connaissances sur cela vient du discours solennel Harveian en 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Essentiellement, au mieux de mes souvenirs les résultats seront biaisés que 1) l' arrêt précoce signifie généralement que le traitement a été plus ou moins efficace que ce que l'on espérait, et si cela est positif, alors vous pouvez capitaliser sur le hasard. Je crois que les valeurs de p sont calculées sur la base de la taille d'échantillon prévue (mais je peux me tromper à ce sujet), et aussi si vous vérifiez constamment vos résultats pour voir si des effets ont été montrés, vous devez corriger les comparaisons multiples afin de vous assurer que vous ne trouvez pas simplement un effet de hasard. Par exemple, si vous vérifiez 20 fois les valeurs de p inférieures à 0,05 puis statistiquement parlant, vous êtes presque certain de trouver un résultat significatif.


PARTIE 1 Tout d'abord, merci pour votre réponse. En effet, les méthodes fréquentistes corrigent les tests multiples. Par conséquent, le problème de l'estimation de l'effet de traitement biaisé ne peut pas venir de là. Lors d'une analyse intermédiaire, le test est basé sur les informations actuelles, en utilisant la taille actuelle de l'échantillon, et non la taille globale prévue de l'échantillon. Le problème ne vient donc pas non plus de là.
ocram

PARTIE 2 Je conviens que l'arrêt précoce peut signifier que le traitement est "plus efficace qu'un saut". En ce sens, l'effet estimé du traitement serait plus important que prévu. Mais, selon moi, cela ne le rend pas biaisé ... Au contraire, selon moi, dans un certain sens, "notre espoir était biaisé".
ocram

1

Je ne serais pas d'accord avec cette affirmation, sauf si par "biais" Piantadosi signifie cette partie de l'exactitude qui est communément appelée biais. L'inférence ne sera pas "biaisée" parce que vous avez choisi d'arrêter en soi: elle sera "biaisée" parce que vous avez moins de données. Le soi-disant «principe de vraisemblance» stipule que l'inférence ne devrait dépendre que des données qui ont été observées, et non des données qui auraient pu être observées, mais qui ne l'ont pas été. Le LP dit

P(H|,S,je)=P(H|,je)

Où représente l'hypothèse que vous testez (sous la forme d'une proposition, telle que «le traitement a été efficace»), représente les données que vous avez réellement observées et représente la proposition «l'expérience a été arrêtée tôt», et représente les informations préalables (comme un modèle). Supposons maintenant que votre règle d'arrêt dépend des données et des informations antérieures , vous pouvez donc écrire . Maintenant, une règle élémentaire de la logique est - dire que A est vrai deux fois est la même chose que le dire une fois. Cela signifie que parce que sera vrai chaque fois que etD S I D I S = g ( D , I ) A A = A S = g ( D , I ) D I D , S , I = D , g ( D , I ) , I = D , I D IHSjejeS=g(,je)UNEUNE=UNES=g(,je)je aussi vrai. Ainsi , dans " l' algèbre de Boole" nous avons . Cela prouve l'équation ci-dessus du principe de vraisemblance. Ce n'est que si votre règle d'arrêt dépend d'autre chose que des données ou des informations préalables qu'elle importe.,S,je=,g(,je),je=,jeje


@probabilityislogic: Merci! Si je comprends bien, le «biais» ne doit pas être pris dans un sens statistique. Je pense que cela a du sens parce que Piantadosi parle du "biais" d'une estimation et non d'un estimateur ...
ocram

@ocram - Ce que je voulais dire par "biaisé" est le terme statistique habituel où est la "vraie valeur" et est l '"estimateur". Si le deuxième terme (le biais) dépend de la taille de l'échantillon, alors vous vous attendez à ce que l'arrêt précoce augmente le biais, car il a diminué la taille de l'échantillon, par rapport à la poursuite de l'expérience. Mais d'après ce que vous dites, cela ressemble à un "biais" qui devrait être interprété comme une "erreur" du point de vue de Piantadosi. μ μE(μ-μ^)2=vuner(μ^)+Bjeunes(μ^)μμ^
probabilités du

1
Cet argument ne dit rien sur le biais, seulement l'aspect test d'hypothèse du problème, que personne ne remet en question.
Aniko

@Prob Je suis d'accord avec @Aniko: il est évident que lorsque la valeur nulle est vraie, il y a une probabilité positive de résiliation anticipée, auquel cas l'estimation de l'effet sera non nulle. Ainsi, l'attente de l'effet estimé, conditionnelle à une résiliation anticipée, est positive, alors que l'attente inconditionnelle est nulle. (Notez que le PO porte sur l' estimation , pas sur le test d'hypothèse.)
whuber

@whuber - il n'y a pas de différence entre estimation et test d'hypothèse ici, remplacez simplement par la proposition "la vraie valeur de est dans un petit intervalle ". L'estimation dépend de que par les données et avant . Donc, même si cela peut être vrai avant que vous ne voyiez les données (que compte), n'est pas pertinent après que les données ont été observées. ne vous donne que des informations sur et , pas directement sur . μ ( a , a + d a ) S D I S S S D I μHμ(une,une+une)SjeSSSjeμ
probabilitéislogic

0

il y aura un biais (au "sens statistique") si la fin des études n'est pas aléatoire.

Dans un ensemble d'expériences menées à terme, les résultats "précoces" de (a) certaines expériences qui finalement ne trouvent "aucun effet" montreront un certain effet (par hasard) et (b) certaines expériences qui finalement trouveront un l'effet montrera «aucun effet» (probablement en raison d'un manque de puissance). Dans un monde où vous mettez fin aux essais, si vous arrêtez (a) plus souvent que (b), vous vous retrouverez à travers une série d'études avec un biais en faveur de la recherche d'un effet. (La même logique s'applique pour les tailles d' effet ; terminer les études qui montrent un effet "plus grand que prévu" plus tôt que celles qui montrent "comme prévu ou plus bas" gonflera le nombre de résultats de "grand effet".)

Si, en fait, les essais médicaux sont interrompus lorsque les premiers résultats montrent un effet positif - afin de rendre le traitement disponible pour les sujets sous placebo ou autres - mais pas lorsque les premiers résultats ne sont pas concluants, alors il y aura plus d'erreur de type 1 dans ces tests que il y en aurait si toutes les expériences étaient menées à terme. Mais cela ne signifie pas que la pratique est mauvaise; moralement parlant, le coût d'une erreur de type 1 pourrait être inférieur à celui de refuser un traitement aussi rapidement qu'on le ferait autrement pour des traitements qui se révéleraient réellement efficaces à la fin d'un essai complet.


Veuillez voir mon commentaire à la réponse d'Aniko, car je vous poserais la même question: pouvez-vous faire une démonstration plus rigoureuse?
whuber

Je m'en remets à Aniko - il fait un meilleur travail que moi. Mais si vous convenez que «l'effet de tiroir de bureau» entraîne un biais, la logique ici est identique. Il existe un biais en faveur des données étayant l'hypothèse - dans le premier cas b / c, les données non étayées ne sont pas signalées, dans le dernier b / c, une partie des données non étayées n'est pas nécessairement collectée: Fin de l'essai tôt lorsque les résultats semblent bons exclut la partie de la distribution des «mauvais résultats» peuplée d'essais qui produiront leurs mauvais résultats tardivement . Peut-être que ce biais peut être ajusté - mais il y a un biais nécessitant un ajustement.
dmk38

@dmk J'essaie juste de vous inciter tous les deux à avoir un débat avec @Probability, avec qui vous semblez fortement en désaccord ;-).
whuber

1
@whuber, @dmk - Je pense que nous sommes destinés à être en désaccord non pas parce que chacun de nous a tort, mais parce que chacun répond à une question différente. Le fréquentiste considère comme "la réponse", et si tel est l'objet, alors la règle d'arrêt importe. Mais à quelle question est-ce la réponse? Pour moi, cela répond à la question: "quelles données sommes-nous susceptibles d'observer, étant donné que l'hypothèse est vraie (ou le paramètre est ladite valeur), que nous avons arrêté tôt, et à partir de nos informations antérieures?" Mais ce n'est pas la question qui se pose en fait je pense (plus tard)P(|H,S,je)
probabilitéislogic

1
@probability C'est une façon de voir les choses. Une autre consiste à esquiver complètement l'hypothèse et à répondre à la question effectivement posée; à savoir, quelle est la taille de l'effet du traitement ? De ce point de vue, la résiliation peut se produire une fois que l'estimation est connue avec suffisamment de précision pour appuyer la prise de décision. Par exemple, nous pourrions souhaiter avoir une confiance élevée que le gain de santé de la prescription du traitement est susceptible de dépasser les coûts (et les effets secondaires) du traitement.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.