Il s'agit d'une question compliquée qui introduit de nombreuses questions connexes: 1) spécification claire d'une hypothèse, 2) compréhension des mécanismes causaux (pouvant) sous-tendre un effet hypothétique et 3) choix / style de présentation.
Vous avez raison de dire que, si nous appliquons de bonnes pratiques statistiques, pour affirmer que «les groupes sont similaires», il faudrait effectuer un test d'équivalence. Cependant, les tests d'équivalence souffrent des mêmes problèmes que leur homologue NHST: le pouvoir est simplement un reflet de la taille de l'échantillon et du nombre de comparaisons: nous nous attendons à des différences, mais leur ampleur et leur effet sur une analyse principale est beaucoup plus important.
Lorsqu'elles sont confrontées à ces situations, les comparaisons de référence sont presque toujours des fausses pistes. De meilleures méthodes (scientifiques et statistiques) peuvent être appliquées. J'ai quelques concepts / réponses courants que je considère lorsque je réponds à des questions comme celle-ci.
Une colonne "totale" est plus importante que les colonnes fractionnées par traitement; une discussion est justifiée de ces valeurs.
Dans les essais cliniques, l' échantillon de sécurité est généralement analysé. Il s'agit du sous-ensemble de ceux qui ont d'abord été approchés, puis consentis, puis randomisés et finalement exposés à au moins une itération de contrôle ou de traitement. Dans ce processus, nous sommes confrontés à divers degrés de biais de participation.
L'aspect le plus important et le plus omis de ces études est probablement de présenter les résultats du tableau 1 dans leur ensemble . Cela permet d'atteindre l'objectif le plus important d'un tableau 1: démontrer aux autres chercheurs à quel point l'échantillon de l'étude est généralisable à la population plus large dans laquelle les résultats s'appliquent.
Je trouve surprenant de voir à quel point les enquêteurs, les lecteurs et les examinateurs sont obsédés par les tendances tangentielles dans les caractéristiques des patients quand il y a un mépris total des critères d'inclusion / exclusion et de la généralisabilité de l'échantillon.
J'ai honte de dire que j'étais analyste dans un procès qui a ignoré cela comme un problème. Nous avons recruté des patients puis, en raison de problèmes logistiques, nous avons attendu près d'un an avant de mettre en œuvre l'intervention. Non seulement le diagramme du consortium a montré une énorme baisse entre ces périodes, mais l'échantillon a changé. Le résultat était largement sans emploi / sous-employé, plus âgé et en meilleure santé que les personnes que nous voulions atteindre. J'étais profondément préoccupé par la généralisation de l'étude, mais il était difficile de faire pression pour que ces préoccupations soient révélées.
La puissance et l'erreur de type I des tests pour détecter un déséquilibre dans les caractéristiques de base dépendent du nombre réel de caractéristiques
Le point de présenter une telle liste détaillée des variables de base, comme mentionné précédemment, est de donner un aperçu complet de l'échantillon; leurs antécédents, leurs laboratoires, leurs médicaments et leurs données démographiques. Ce sont tous ces aspects que les cliniciens utilisent pour recommander un traitement aux patients. Ils sont tous censés prédire le résultat. Mais le nombre de ces facteurs est stupéfiant. Jusqu'à 30 variables différentes peuvent être comparées. Le risque brut d'erreur de type I est de 1- (1-0,05) ^ 30 = 0,79. Des corrections de Bonferroni ou de permutation sont recommandées si des tests doivent être effectués.
Les tests statistiques dans leur forme la plus pure sont censés être impartiaux, et ils sont censés être prédéfinis. Cependant, le choix et la présentation des caractéristiques de base sont souvent relatifs. Je pense que cette dernière approche est appropriée: si nous constatons, comme dans mon essai, qu'il existe des traits intéressants qui décrivent efficacement l'échantillon, nous devrions avoir la liberté de choisir de présenter ces valeurs ad hoc . Les tests peuvent être effectués s'ils ont une valeur quelconque, mais les mises en garde habituelles s'appliquent: ce ne sont pas des hypothèses d'intérêt, il y a un risque élevé de confusion quant à ce que les résultats significatifs et non significatifs impliquent, et les résultats reflètent davantage la taille de l'échantillon et les considérations de présentation que de toute vérité.
Une nouvelle randomisation peut être effectuée, mais seulement avant que les patients soient exposés au traitement
Comme je l'ai mentionné, l'échantillon analysé est généralement l'échantillon de sécurité. Cependant, la ré-randomisation est une approche fortement préconisée et théoriquement cohérente pour les patients qui n'ont pas été exposés au traitement de l'étude. Cela s'applique uniquement aux paramètres dans lesquels l'inscription par lots est effectuée. Ici, 100 participants sont recrutés et randomisés. Si, par exemple, la probabilité affecte une proportion élevée de personnes âgées à un groupe, alors l'échantillon peut être retradomisé pour équilibrer l'âge. Cela ne peut pas être fait avec l'inscription séquentielle ou échelonnée, qui est le cadre dans lequel la plupart des essais sont menés. Cela est dû au fait que le moment de l'inscription tend à prédire l'état du patient en fonction du «biais» prévalant (incident confondant et critères d'éligibilité courants).
La conception équilibrée n'est pas une exigence pour une inférence valide
L'hypothèse de randomisation dit que, théoriquement, tous les participants auront en moyenne des distributions égales de covariables. Cependant, comme mentionné précédemment, lorsque l'on compare 30 niveaux ou plus, la probabilité cumulée de déséquilibre n'est pas négligeable. En fait, le déséquilibre des covariables peut ne pas être pertinent lorsque l'on considère l'ensemble.
Si la randomisation est juste, nous pouvons voir que l'âge est élevé dans le groupe de traitement, mais le tabagisme est élevé dans le groupe témoin: les deux contribuent individuellement au risque de résultat. Ce qui est nécessaire pour une inférence efficace et valide est que le score de propension soit équilibré entre les groupes. C'est une condition beaucoup plus faible. Malheureusement, la propension ne peut pas être inspectée pour l'équilibre sans un modèle de risque. Cependant, il est facile de voir qu'une telle propension dépend d'une combinaison de covariables, et la probabilité d'un déséquilibre des propensions dans un échantillon randomisé est beaucoup moins probable, bien qu'elle soit impossible à montrer exactement.
Si un modèle de risque est connu, ou si de solides prédicteurs du résultat sont présents, des ECR plus efficaces et valides sont effectués en ajustant simplement ces facteurs, qu'ils soient ou non équilibrés entre les groupes de traitement.
Un de mes articles préférés, 7 mythes sur les essais contrôlés randomisés , en parle. L'ajustement améliore l'efficacité lorsque la variable d'ajustement est fortement prédictive du résultat. Il s'avère que même avec un équilibre parfait 50/50, en utilisant disons la randomisation bloquée, ou même comme une coïncidence de la façon dont la randomisation a été effectuée, l'ajustement réduira les IC, nécessitant moins de participants à avoir une étude de même puissance; cela réduit les coûts et les risques. Il est choquant que cela ne se fasse pas plus souvent.
Les études observationnelles nécessitent un contrôle pour la confusion indépendamment de ce que montre le tableau 1
L'hypothèse de randomisation élimine la confusion. Avec un traitement non randomisé, il y a confusion. Un facteur de confusion est une variable qui est à l'origine du résultat et prédit la réception du traitement quasi expérimental. Il n'y a pas de test pour déterminer quelle (s) variable (s) est / sont des facteurs de confusion. Le risque de jeter un œil aux données pour répondre à ces questions est que les facteurs de confusion sont pratiquement indiscernables des médiateurs ou des collisionneurs sans une mesure parfaitement parfaite des valeurs longitudinales (et même alors ...). L'ajustement pour les médiateurs atténue tout effet, l'ajustement du collisionneur peut provoquer tout type de biais. De plus, il n'est pas nécessaire d'ajuster pour un ensemble total de facteurs de confusion, mais ils doivent plutôt supprimer le critère de porte dérobée.
Par exemple, dans une étude de la fonction pulmonaire et du tabagisme chez les adolescents: les enfants plus âgés sont plus susceptibles de fumer, mais comme ils sont plus grands, leur fonction pulmonaire est plus importante. Il s'avère que le réglage de la hauteur suffit à lui seul à éliminer la confusion car il satisfait au critère de porte dérobée. Un ajustement supplémentaire pour l'âge perd tout simplement son efficacité. Cependant, le simple fait d'inspecter "l'équilibre" d'un tableau 1 chez les fumeurs et les non-fumeurs suggère que l'âge et la taille sont "déséquilibrés" et devraient donc être contrôlés. C'est incorrect.