Dans un article récent, Norton et al. (2018) déclare que
Différents rapports de cotes de la même étude ne peuvent pas être comparés lorsque les modèles statistiques qui aboutissent à des estimations de rapports de cotes ont des variables explicatives différentes parce que chaque modèle a un facteur d'échelle arbitraire différent. L’ampleur du rapport de cotes d’une étude ne peut pas non plus être comparée à l’ampleur du rapport de cotes d’une autre étude, car différents échantillons et différentes spécifications de modèle auront des facteurs d’échelle arbitraires différents. Une autre implication est que les amplitudes des rapports de cotes d'une association donnée dans plusieurs études ne peuvent pas être synthétisées dans une méta-analyse.
Une petite simulation illustre cela (le code R est au bas de la question). Supposons que le vrai modèle soit:
Imaginez en outre que les mêmes données générées par le modèle ci-dessus sont analysées par quatre chercheurs différents à l'aide d'une régression logistique. Le chercheur 1 inclut uniquement comme covariable, le chercheur 2 comprend à la fois et et ainsi de suite. Les estimations simulées moyennes du rapport de cotes pour des quatre chercheurs étaient les suivantes:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Il est évident que seuls les chercheurs 3 et 4 obtiennent le rapport de cotes correct d'environ contrairement aux chercheurs 1 et 2. Cela ne se produit pas dans la régression linéaire, ce qui peut être facilement montré par une simulation similaire (non représentée ici). Je dois avouer que ce résultat m'a beaucoup surpris, même si ce problème semble bien connu . Hernán et al. (2011) appellent cela une "bizarrerie mathématique" au lieu d'un biais.[ 2 ] [ 3 ]
Mes questions:
- Si les rapports de cotes sont fondamentalement incomparables entre les études et les modèles, comment pouvons-nous combiner les résultats de différentes études pour les résultats binaires?
- Que peut - on dire sur les innombrables méta-analyses qui ne combinent les odds ratios de différentes études où éventuellement chaque étude ajustée pour un ensemble différent de covariables? Sont-ils essentiellement inutiles?
Les références
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Current Best Practice and Use. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Log Odds and the Interpretation of Logit Models. Health Serv Res. 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): Le paradoxe des Simpson s'est effondré. Int J Epidemiol 40: 780-785.
Divulgation
La question (y compris le code R) est une version modifiée d'une question posée par l'utilisateur timdisher sur les méthodes de données .
Code R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios