J'ai une question méthodologique et, par conséquent, aucun échantillon de jeu de données n'est joint.
Je prévois de faire une régression de Cox ajustée au score de propension qui vise à examiner si un certain médicament réduira le risque de résultat. L'étude est observationnelle, comprenant 10 000 individus.
L'ensemble de données contient 60 variables. Je pense que 25 d'entre eux pourraient affecter la répartition des traitements. Je ne ferais jamais d'ajustement pour les 25 dans une régression de Cox, mais j'ai entendu dire que vous pouvez inclure autant de variables comme prédicteurs dans un score de propension, puis inclure uniquement la sous-classe du score de propension et la variable de traitement dans la régression de Cox.
(des covariables qui ne seront pas égales après ajustement du score de prop devront bien entendu être incluses dans la régression de Cox).
En fin de compte, est-il vraiment intelligent d'inclure autant de prédicteurs dans le score d'hélice?
@Dimitriy V. Masterov Merci d'avoir partagé ces faits importants. Contrairement aux livres et articles qui envisagent d'autres cadres de régression, je ne vois aucune directive (en lisant le livre de Rosenbaums) sur la sélection des modèles dans les analyses de score de propension. Alors que les manuels / articles de revue standard semblent toujours recommander une sélection rigoureuse des variables et maintenir le nombre de prédicteurs bas, je n'ai pas vu beaucoup de cette discussion dans les analyses de score d'hélice. Vous écrivez: (1) "Les connaissances théoriques, les connaissances institutionnelles et les bonnes recherches devraient guider la sélection des X". Je suis d'accord mais il y a des circonstances où nous avons une variable à portée de main et ne savons pas vraiment (mais cela pourrait être possible) si la variable affecte l'allocation du traitement ou le résultat. Par exemple: devrais-je inclure la fonction rénale, telle que mesurée par le taux de filtration, dans un score d'hélice visant à ajuster le traitement aux statines. Le traitement aux statines n'a rien à voir avec la fonction rénale et j'ai déjà inclus un tableau de variables qui affecteront le traitement aux statines. Mais il est toujours tentant d'inclure la fonction rénale; il pourrait s'ajuster encore plus. Maintenant, certains diraient qu'elle devrait être incluse car elle affecte le résultat, mais je pourrais vous donner un autre exemple (comme la variable binaire vie urbaine / rurale) d'une variable qui n'affecte pas le traitement ni le résultat, à notre connaissance. Mais je voudrais l'inclure, tant qu'il ne le fait pas t effectuer la précision du score prop. (2)"L'inclusion des X affectés par le traitement, soit ex post soit ex ante en prévision du traitement, invalidera l'hypothèse". Je ne sais pas ce que tu veux dire ici. Mais si j'étudie l'effet des statines sur les résultats cardiovasculaires, j'inclurai diverses mesures des lipides sanguins dans le score de propension. Les lipides sanguins sont effectués par le traitement. Je suppose que j'ai mal compris cette déclaration.
@statsRus merci de partager les faits, en particulier ce que vous appelez "une note sur la sélection des entrées". Je pense que je raisonne de la même manière que vous.
Malheureusement, les méthodes de score prop discutent de diverses stratégies d'ajustement au lieu de stratégies de sélection de modèle. Peut-être que l'ajustement du modèle n'est pas important. Si tel est le cas, je m'ajusterais pour chaque variable disponible qui pourrait affecter le moins possible les résultats et la répartition du traitement. Je ne suis pas statisticien, mais si l'ajustement du modèle n'a pas d'importance, je voudrais m'adapter à toutes les variables susceptibles d'affecter la répartition et les résultats du traitement. Dans de nombreux cas, cela signifierait l'inclusion de variables qui seront affectées par le traitement.
De plus, certaines personnes suggèrent que la régression de Cox subséquente ne devrait inclure que la variable de traitement et la sous-classe de score de prop. Alors que d'autres suggèrent que l'ajustement cox devrait inclure le score prop en plus de toutes les autres variables pour lesquelles vous ajusteriez.