Lorsque nous comparons des groupes sur des variables de contrôle, devrions-nous utiliser des tests d'équivalence?

Dans de nombreux articles qui traitent des traitements et des résultats, je vois des tableaux (généralement "tableau 1") de ce que l'on pourrait appeler des variables de nuisance (souvent des données démographiques, parfois des conditions médicales) avec des tests de signification et du texte tels que "les groupes étaient globalement similaires, là aucune différence significative sur XXXXX, voir tableau ". L'objectif clair est donc de montrer que les groupes affectés aux différents traitements sont similaires.

Cependant, il me semble que cela pourrait être «accepter le nul» et que ce que nous devrions faire (ou exiger que l'on fasse), ce sont des tests d'équivalence.

Cela pourrait s'appliquer aux essais randomisés ou aux études observationnelles. Est-ce que j'ai râté quelque chose?

equivalence controlling-for-a-variable

— Peter Flom - Réintégrer Monica
source

Je suppose que vous faites référence au «tableau 1». Vous posez des questions sur les ECR en tant que tels ou sur des études d'observation?

— gung - Réintègre Monica

@gung oui, il s'agit généralement du tableau 1. Il peut s'agir d'études observationnelles ou d'ECR. J'ai modifié ma question pour refléter votre commentaire.

— Peter Flom - Réintègre Monica

Même si je risque de dire l'évidence: il y a des articles qui traitent de cette question (par exemple de Boer et al. (2015) ). Je pense que le consensus est que les tests d'hypothèses devraient être abandonnés dans les tableaux de référence. La déclaration CONSORT pour les essais cliniques ainsi que la déclaration STROBE pour les études observationnelles recommandent d'éviter les tests d'hypothèse dans les tableaux de référence. Si les tests d'équivalence sont meilleurs, je ne sais pas.

— COOLSerdash

Que vous testiez la valeur null ou que vous testiez l'équivalence dépend de la motivation et affecte la discussion qui peut être tirée du tableau. Affirmer l'équivalence est une condition très forte et je soupçonne que ce n'est pas nécessaire dans la plupart des cas, sauf si l'auteur veut tirer des conclusions solides sur les données démographiques, etc. Il serait préférable et plus approprié de disposer d'une procédure formalisée pour quantifier le risque de biais biaisé sur les déséquilibres dans les démographie. Je n'ai pas examiné cela, mais je serais intéressé par d'autres opinions sur ce à quoi cela pourrait ressembler.

— ReneBt

Il s'agit d'une question compliquée qui introduit de nombreuses questions connexes: 1) spécification claire d'une hypothèse, 2) compréhension des mécanismes causaux (pouvant) sous-tendre un effet hypothétique et 3) choix / style de présentation.

Vous avez raison de dire que, si nous appliquons de bonnes pratiques statistiques, pour affirmer que «les groupes sont similaires», il faudrait effectuer un test d'équivalence. Cependant, les tests d'équivalence souffrent des mêmes problèmes que leur homologue NHST: le pouvoir est simplement un reflet de la taille de l'échantillon et du nombre de comparaisons: nous nous attendons à des différences, mais leur ampleur et leur effet sur une analyse principale est beaucoup plus important.

Lorsqu'elles sont confrontées à ces situations, les comparaisons de référence sont presque toujours des fausses pistes. De meilleures méthodes (scientifiques et statistiques) peuvent être appliquées. J'ai quelques concepts / réponses courants que je considère lorsque je réponds à des questions comme celle-ci.

Une colonne "totale" est plus importante que les colonnes fractionnées par traitement; une discussion est justifiée de ces valeurs.

Dans les essais cliniques, l' échantillon de sécurité est généralement analysé. Il s'agit du sous-ensemble de ceux qui ont d'abord été approchés, puis consentis, puis randomisés et finalement exposés à au moins une itération de contrôle ou de traitement. Dans ce processus, nous sommes confrontés à divers degrés de biais de participation.

L'aspect le plus important et le plus omis de ces études est probablement de présenter les résultats du tableau 1 dans leur ensemble . Cela permet d'atteindre l'objectif le plus important d'un tableau 1: démontrer aux autres chercheurs à quel point l'échantillon de l'étude est généralisable à la population plus large dans laquelle les résultats s'appliquent.

Je trouve surprenant de voir à quel point les enquêteurs, les lecteurs et les examinateurs sont obsédés par les tendances tangentielles dans les caractéristiques des patients quand il y a un mépris total des critères d'inclusion / exclusion et de la généralisabilité de l'échantillon.

J'ai honte de dire que j'étais analyste dans un procès qui a ignoré cela comme un problème. Nous avons recruté des patients puis, en raison de problèmes logistiques, nous avons attendu près d'un an avant de mettre en œuvre l'intervention. Non seulement le diagramme du consortium a montré une énorme baisse entre ces périodes, mais l'échantillon a changé. Le résultat était largement sans emploi / sous-employé, plus âgé et en meilleure santé que les personnes que nous voulions atteindre. J'étais profondément préoccupé par la généralisation de l'étude, mais il était difficile de faire pression pour que ces préoccupations soient révélées.

La puissance et l'erreur de type I des tests pour détecter un déséquilibre dans les caractéristiques de base dépendent du nombre réel de caractéristiques

Le point de présenter une telle liste détaillée des variables de base, comme mentionné précédemment, est de donner un aperçu complet de l'échantillon; leurs antécédents, leurs laboratoires, leurs médicaments et leurs données démographiques. Ce sont tous ces aspects que les cliniciens utilisent pour recommander un traitement aux patients. Ils sont tous censés prédire le résultat. Mais le nombre de ces facteurs est stupéfiant. Jusqu'à 30 variables différentes peuvent être comparées. Le risque brut d'erreur de type I est de 1- (1-0,05) ^ 30 = 0,79. Des corrections de Bonferroni ou de permutation sont recommandées si des tests doivent être effectués.

Les tests statistiques dans leur forme la plus pure sont censés être impartiaux, et ils sont censés être prédéfinis. Cependant, le choix et la présentation des caractéristiques de base sont souvent relatifs. Je pense que cette dernière approche est appropriée: si nous constatons, comme dans mon essai, qu'il existe des traits intéressants qui décrivent efficacement l'échantillon, nous devrions avoir la liberté de choisir de présenter ces valeurs ad hoc . Les tests peuvent être effectués s'ils ont une valeur quelconque, mais les mises en garde habituelles s'appliquent: ce ne sont pas des hypothèses d'intérêt, il y a un risque élevé de confusion quant à ce que les résultats significatifs et non significatifs impliquent, et les résultats reflètent davantage la taille de l'échantillon et les considérations de présentation que de toute vérité.

Une nouvelle randomisation peut être effectuée, mais seulement avant que les patients soient exposés au traitement

Comme je l'ai mentionné, l'échantillon analysé est généralement l'échantillon de sécurité. Cependant, la ré-randomisation est une approche fortement préconisée et théoriquement cohérente pour les patients qui n'ont pas été exposés au traitement de l'étude. Cela s'applique uniquement aux paramètres dans lesquels l'inscription par lots est effectuée. Ici, 100 participants sont recrutés et randomisés. Si, par exemple, la probabilité affecte une proportion élevée de personnes âgées à un groupe, alors l'échantillon peut être retradomisé pour équilibrer l'âge. Cela ne peut pas être fait avec l'inscription séquentielle ou échelonnée, qui est le cadre dans lequel la plupart des essais sont menés. Cela est dû au fait que le moment de l'inscription tend à prédire l'état du patient en fonction du «biais» prévalant (incident confondant et critères d'éligibilité courants).

La conception équilibrée n'est pas une exigence pour une inférence valide

L'hypothèse de randomisation dit que, théoriquement, tous les participants auront en moyenne des distributions égales de covariables. Cependant, comme mentionné précédemment, lorsque l'on compare 30 niveaux ou plus, la probabilité cumulée de déséquilibre n'est pas négligeable. En fait, le déséquilibre des covariables peut ne pas être pertinent lorsque l'on considère l'ensemble.

Si la randomisation est juste, nous pouvons voir que l'âge est élevé dans le groupe de traitement, mais le tabagisme est élevé dans le groupe témoin: les deux contribuent individuellement au risque de résultat. Ce qui est nécessaire pour une inférence efficace et valide est que le score de propension soit équilibré entre les groupes. C'est une condition beaucoup plus faible. Malheureusement, la propension ne peut pas être inspectée pour l'équilibre sans un modèle de risque. Cependant, il est facile de voir qu'une telle propension dépend d'une combinaison de covariables, et la probabilité d'un déséquilibre des propensions dans un échantillon randomisé est beaucoup moins probable, bien qu'elle soit impossible à montrer exactement.

Si un modèle de risque est connu, ou si de solides prédicteurs du résultat sont présents, des ECR plus efficaces et valides sont effectués en ajustant simplement ces facteurs, qu'ils soient ou non équilibrés entre les groupes de traitement.

Un de mes articles préférés, 7 mythes sur les essais contrôlés randomisés , en parle. L'ajustement améliore l'efficacité lorsque la variable d'ajustement est fortement prédictive du résultat. Il s'avère que même avec un équilibre parfait 50/50, en utilisant disons la randomisation bloquée, ou même comme une coïncidence de la façon dont la randomisation a été effectuée, l'ajustement réduira les IC, nécessitant moins de participants à avoir une étude de même puissance; cela réduit les coûts et les risques. Il est choquant que cela ne se fasse pas plus souvent.

Les études observationnelles nécessitent un contrôle pour la confusion indépendamment de ce que montre le tableau 1

L'hypothèse de randomisation élimine la confusion. Avec un traitement non randomisé, il y a confusion. Un facteur de confusion est une variable qui est à l'origine du résultat et prédit la réception du traitement quasi expérimental. Il n'y a pas de test pour déterminer quelle (s) variable (s) est / sont des facteurs de confusion. Le risque de jeter un œil aux données pour répondre à ces questions est que les facteurs de confusion sont pratiquement indiscernables des médiateurs ou des collisionneurs sans une mesure parfaitement parfaite des valeurs longitudinales (et même alors ...). L'ajustement pour les médiateurs atténue tout effet, l'ajustement du collisionneur peut provoquer tout type de biais. De plus, il n'est pas nécessaire d'ajuster pour un ensemble total de facteurs de confusion, mais ils doivent plutôt supprimer le critère de porte dérobée.

Par exemple, dans une étude de la fonction pulmonaire et du tabagisme chez les adolescents: les enfants plus âgés sont plus susceptibles de fumer, mais comme ils sont plus grands, leur fonction pulmonaire est plus importante. Il s'avère que le réglage de la hauteur suffit à lui seul à éliminer la confusion car il satisfait au critère de porte dérobée. Un ajustement supplémentaire pour l'âge perd tout simplement son efficacité. Cependant, le simple fait d'inspecter "l'équilibre" d'un tableau 1 chez les fumeurs et les non-fumeurs suggère que l'âge et la taille sont "déséquilibrés" et devraient donc être contrôlés. C'est incorrect.

— AdamO
source

Je suis d'accord avec cela et je suis bien conscient des problèmes avec les valeurs de p. (Vous trouverez peu de personnes sur ce site ou êtes plus anti-p que moi). Et je suis pour de meilleures méthodes, dont certaines que vous soulevez. Bien sûr, certaines variables pourraient être des suppresseurs (de sorte que leur inclusion augmente la taille de l'effet principal). Cependant, si je suis en train de réviser un article pour une revue, pensez-vous que recommander des tests d'équivalence pour le tableau 1 est bon, ou iriez-vous chercher votre réponse complète ici?

— Peter Flom - Réintègre Monica

@PeterFlom Je vois le contexte un peu mieux maintenant. En tant que réviseur statistique, je me demanderais si le commentaire est pertinent pour les analyses ultérieures. Si ce n'est pas pertinent, je les encourage à supprimer ce commentaire car il n'est pas utile. Si cela est pertinent, je les encouragerais à a) envisager une approche d'analyse plus robuste ou b) utiliser des analyses de sensibilité pour déterminer s'il existe une influence possible. L'équilibre des covariables n'a d'importance que dans la mesure où il influe sur les analyses, c'est donc là que je préférerais que l'attention soit accordée. Ce n'est peut-être pas une conception adaptée à la propension, n'est-ce pas?

— AdamO

@PeterFlom En tant que critique, ne serait-il pas judicieux de recommander de se débarrasser complètement des valeurs de p dans le "Tableau 1"?

— amibe dit Réintégrer Monica

AdamO, excellente réponse (+1), mais je suis un peu préoccupé par la recommandation selon laquelle de multiples ajustements de tests sont "recommandés" dans le contexte du "Tableau 1". L'erreur de type I est-elle préoccupante ici? Je pense que dans ce cas, l'erreur de type II est en réalité beaucoup plus importante (on ne voudrait pas manquer le fait que certaines variables de base diffèrent entre le traitement et les groupes témoins). En utilisant Bonferroni, l'erreur de type II augmentera considérablement. Ceci est lié au point de @ Peter sur les tests d'équivalence: dans un sens, les échanges de type I et de type II si vous passez au point de vue "équivalence".

— amibe dit Réintégrer Monica

@amoeba Absolument. Si nous insistons sur cette approche (pas ma recommandation), les NHST exigent que nous contrôlions les erreurs de type I. Je pense que mon point est que nous devrions contrôler FWER parce que nous ne nous soucions pas quelle variable est déséquilibrée. Il peut être réglé sur une valeur généreuse telle que 0,2. Je ne connais aucun test d'équivalence pour lequel la puissance augmente à mesure que la taille de l'échantillon augmente, donc les justifications de ces tests sont verbeuses, subjectives et imprécises.

— AdamO