Quels exemples de variables cachées dans les expériences contrôlées existe-t-il dans les publications?

Dans cet article:

Variables cachées: quelques exemples Brian L. Joiner The American Statistician Vol. 35, n ° 4, nov., 1981 227-233

Brian Joiner affirme que "la randomisation n'est pas une panacée". Ceci est contraire aux déclarations courantes telles que celle ci-dessous:

Une expérience bien conçue comprend des caractéristiques de conception qui permettent aux chercheurs d'éliminer les variables étrangères comme explication de la relation observée entre la ou les variables indépendantes et la variable dépendante. Ces variables étrangères sont appelées variables cachées.

La citation est tirée de cette question et n'a pas de source, mais d'après mon expérience, elle est représentative de l'attitude qui prévaut: Exemples de variable menaçante et d'observation influente

Un exemple donné est que lors des tests de l'innocuité (en particulier la cancérogenèse) du colorant alimentaire rouge # 40 sur les rongeurs dans les années 70, un effet de la position de la cage s'est avéré confondre l'étude. Maintenant, j'ai lu de nombreux articles de journaux sur la cancérogenèse chez les rongeurs et je n'ai jamais vu personne rapporter contrôler cet effet.

Une discussion plus approfondie de ces études peut être trouvée ici: Une étude de cas de statistiques dans le processus de réglementation: les expériences FD&C Red n ° 40.

Je n'ai pas pu trouver de version non paywalled mais voici un extrait:

Lors de la réunion de janvier, nous avons présenté une analyse préliminaire (14) qui révélait une forte corrélation entre les taux de mortalité des rangées de cages et des RE (tumeurs réticulo-endothéliales), qui variait de 17% (rang inférieur) à 32% (rang supérieur) (tableau 2). Nous n'avons pas pu expliquer cette forte association par sexe, groupe de dosage ou colonne ou position de rack. Une analyse ultérieure (18) a également indiqué que la position de la cage (avant ou arrière) pouvait être corrélée avec la mortalité non ER et que cette position était corrélée avec le temps avant la mort non ER.

Je suis particulièrement intéressé par la raison pour laquelle il semble y avoir un tel problème de réplication dans la littérature médicale, mais des exemples de tous les domaines seraient les bienvenus. Notez que je suis intéressé par des exemples d'expériences contrôlées randomisées, pas par des études observationnelles.

confounding random-allocation

— Ballon
source

Juste à propos d'une question d'intérêt, une variable lukring est-elle la même qu'une variable fondatrice / confondante?

— tomka

@tomka Je définirais la variable cachée comme une variable de confusion imprévue.

— Flask

Merci - alors mon avis sur cette question est que les chercheurs qui ne contrôlent pas les facteurs de confusion attendus (la position de la cage) font une inférence potentiellement erronée sur les effets du traitement et mènent des recherches sous-optimales. Les variables cachées ne peuvent pas être contrôlées, car elles sont inattendues, c'est donc une question de malchance, si elles se produisent. C'est moins problématique cependant, s'ils sont observés, ce qui les rend contrôlables post-hoc. Les dangereux sont les rôdeurs non observés et donc inconnus. Une analyse de sensibilité peut être recommandée si cela est suspecté.

— tomka

@tomka C'est pourquoi j'ai posé la question de ce qui a été rapporté. Il existe de nombreuses étapes dans les expériences que les chercheurs ne pensent pas à randomiser car ils pensent qu'elles sont probablement non pertinentes et cela demanderait des efforts supplémentaires (en ajoutant éventuellement des heures chaque jour au travail) ou introduirait la possibilité de faire une erreur dans l'étiquetage. Dans l'exemple de la dégustation du thé de la dame de pêcheur, il dit de randomiser l'ordre de tout, c'est moins pratique pour de nombreuses expériences précliniques.

— Flask

Gardez à l'esprit que le but de l'assignation aléatoire n'est pas d'équilibrer les variables non contrôlées mais plutôt de faire des différences sur elles de manière aléatoire. La logique de base d'un test de signification est de fournir un test permettant de déterminer si des variables aléatoires non contrôlées pourraient expliquer de manière plausible les résultats. En d'autres termes, une étude n'a pas à mesurer les variables cachées pour être valide.

— David Lane

Réponses:

Quelques exemples tirés de la recherche clinique pourraient être des variables qui surviennent après la randomisation - la randomisation ne vous protège pas du tout de celles-ci. Quelques-unes du haut de ma tête, qui ont été évoquées comme des possibilités ou notées:

Changements de comportement après la circoncision masculine adulte volontaire pour la prévention du VIH
Perte différentielle au suivi entre le traitement et les bras de contrôle d'un ECR
Un exemple plus spécifique pourrait inclure la récente étude «Avantages de la robe et du gant universels» sur la prévention des infections nosocomiales ( commentaire de blog ici , le document est derrière un mur payant). En plus de l'intervention, et potentiellement à cause d'elle, les taux d'hygiène des mains et les taux de contact entre les patients et le personnel / les visiteurs ont changé.

La randomisation protège contre aucun de ces effets, car ils surviennent après la randomisation.

— Fomite
source

Voici un exemple que j'ai trouvé pour les données de microréseaux. Il a été rapporté que l'expression mesurée était fortement corrélée avec la position sur les "puces". Il s'agit d'un cas où la randomisation de la position des échantillons peut augmenter les chances de commettre une erreur d'étiquetage, de sorte que ceux qui effectuent le travail technique peuvent choisir de ne pas randomiser s'ils ne pensent pas que c'est important.

L'affectation aléatoire d'unités expérimentales aux traitements contrôle la probabilité que tout facteur autre que le traitement soit la cause de l'association (1,2) ⁠. Dans certaines plates-formes de puces à ADN comme Illumina® et NimbleGenTM, plusieurs échantillons biologiques peuvent être hybrides sur une seule puce. Les effets de la position des puces et des échantillons peuvent affecter la précision et la reproductibilité des expériences de puces à ADN à moins que l'équilibre et la randomisation ne soient pris en compte dans la conception expérimentale (4). Notre objectif était de comparer l'impact de ces effets dans une expérience confondue et randomisée.

Importance de la randomisation dans les conceptions expérimentales de puces à ADN avec les plateformes Illumina

Ricardo A. Verdugo, Christian F. Deschepper et Gary A. Churchill. The Jackson Laboratory, Bar Harbor, ME 04609, Institut de Recherches Cliniques, Montréal, QC, Canada.

— Ballon
source

J'ai un exemple qui pourrait être quelque peu différent de ce que vous aviez initialement prévu lorsque vous avez posé cette question. L'année ou les deux dernières années ont donné lieu à une discussion continue en psychologie sur la cause du manque de reproductibilité des effets des expériences randomisées. Des versions de ce débat ont fait surface pendant de nombreuses années, mais le débat est devenu plus strident depuis la publication d'un article montrant que de nombreuses pratiques standard en psychologie dans la formulation d'hypothèses, la collecte de données, l'analyse des données et la communication des résultats permettre aux chercheurs de trouver des résultats soutenant même des hypothèses choisies arbitrairement (dans l'article original, les chercheurs ont utilisé ces pratiques pour montrer qu'en écoutant "When I'm Soixante-Four" des Beatles, les gens étaient plus jeunes).

La racine du problème, bien sûr, est les structures incitatives généralisées en psychologie (et dans d'autres sciences) pour obtenir des résultats nouveaux, positifs et "publiables". Ces incitations encouragent les chercheurs à adopter des pratiques qui, bien qu'elles ne soient pas aussi manifestement «erronées» que la fabrication de données, conduisent néanmoins à un taux accru de faux positifs. Ces pratiques comprennent:

Collection de variables dépendantes multiples et très similaires. Seule la variable dépendante qui produit les résultats les plus cohérents avec l'hypothèse d'origine est rapportée.
Pendant la collecte des données, tester plusieurs fois les résultats significatifs et arrêter la collecte des données lorsque la signification est obtenue.
Pendant l'analyse, l'inclusion de plusieurs covariables dans le modèle statistique. Dans le document final, seule la combinaison de covariables qui conduit à des résultats plus cohérents avec l'hypothèse d'origine est rapportée.
Suppression de conditions conduisant à des résultats incompatibles avec les hyptoheses d'origine et omission de signaler ces conditions dans le document.

Etc.

Je dirais que la «variable cachée» dans ces cas est la structure d'incitation qui récompense les chercheurs pour l'obtention de résultats positifs «publiables». En fait, il y a déjà eu plusieurs résultats très médiatisés en psychologie (dont beaucoup sont dans ma spécialité, la psychologie sociale) qui n'ont pas pu se reproduire. Ces échecs à reproduire, selon beaucoup, mettent en doute des sous-domaines entiers de la psychologie.

Bien sûr, le problème des structures d'incitation qui encouragent les faux positifs n'est pas propre à la psychologie; il s'agit d'un problème endémique à toute la science, et donc à tous les essais contrôlés randomisés.

Références

Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif. Psychological Science , 17, 1359-1366.

Nosek, BA, Spies, JR et Motyl, M. (2012). Utopie scientifique: II. Incitations et pratiques de restructuration pour promouvoir la vérité au détriment de la publication. Perspectives on Psychological Science , 7, 615-631.

Yong, E. (2012). Mauvaise copie. Nature , 485, 298-300.

Abbott, A. (2013). Les résultats contestés portent un nouveau coup à la psychologie sociale. Nature , 497, 16.

— Patrick S. Forscher
source