Aperçu de la question
Avertissement: cette question nécessite beaucoup de configuration. S'il vous plaît, supportez-moi.
Un de mes collègues et moi travaillons sur un plan d'expérience. La conception doit contourner un grand nombre de contraintes, que je listerai ci-dessous. J'ai développé une conception qui satisfait les contraintes et qui nous donne des estimations impartiales de nos effets d'intérêt. Cependant, mon collègue pense qu'il y a une confusion dans la conception. Nous avons argumenté ce point ad nauseum sans parvenir à une résolution, donc à ce stade, j'aimerais avoir des opinions extérieures.
Je décrirai le but de l'étude, nos contraintes, la confusion potentielle et pourquoi je crois que cette "confusion" n'est pas un problème ci-dessous. Lorsque vous lisez chaque section, gardez à l'esprit ma question générale:
Y a-t-il une confusion dans la conception que je décris?
[Les détails de cette expérience ont été modifiés, mais les éléments essentiels requis pour poser ma question restent les mêmes]
Objectifs de l'expérience
Nous souhaitons déterminer si les essais écrits par des hommes blancs sont évalués plus favorablement que les essais écrits par des femmes blanches, des hommes noirs ou des femmes noires (la variable d' auteur de l' essai ). Nous souhaitons également déterminer si tout biais que nous constatons apparaît davantage dans les subventions de haute ou de faible qualité (la variable de qualité ). Enfin, nous souhaitons inclure des essais écrits sur 12 sujets différents (la variable de sujet ). Cependant, seules les deux premières variables présentent un intérêt substantiel; bien que le sujet doive varier d'un essai à l'autre, nous ne sommes pas vraiment intéressés par la façon dont les évaluations varient d'un sujet à l'autre.
Contraintes
- Il y a des limites à la fois au nombre de participants et au nombre d'essais que nous pouvons collecter. Le résultat est que la paternité ne peut pas être entièrement manipulée entre les participants, ni manipulée entièrement entre les essais (c.-à-d., Chaque essai individuel doit être assigné à plusieurs conditions).
- Bien que chaque essai puisse avoir des versions Homme blanc, Femme blanche, Homme noir et Femme noire, chaque essai ne peut être que de haute et de basse qualité et ne peut porter que sur un seul sujet. Ou, pour mettre cette contrainte d'une manière différente, ni la qualité ni le sujet ne peuvent être manipulés dans les essais, car ils sont des caractéristiques inhérentes à un essai donné.
- En raison de la fatigue, le nombre d'essais qu'un participant donné peut évaluer est limité.
- Tous les essais qu'une personne donnée lit doivent porter sur un seul sujet. En d'autres termes, les essais ne peuvent pas être attribués entièrement au hasard aux participants, car nous devons nous assurer que chaque participant ne lit que les essais d'un sujet similaire.
- Chaque participant ne peut voir qu'un essai censément rédigé par un auteur masculin non blanc, car nous ne voulons pas que les participants se méfient du but de l'expérience parce que trop de leurs essais sont écrits par des auteurs noirs ou féminins.
La conception proposée
Ma conception proposée manipule d'abord chaque essai dans les 4 différentes versions d'auteur (homme blanc, femme blanche, etc.). Quatre essais d'un sujet similaire sont ensuite utilisés pour définir un «ensemble», chacun composé de deux essais de haute et de deux mauvaise qualité. Chaque participant reçoit trois essais d'un ensemble donné comme suit dans la figure ci-dessous. Chaque participant attribue ensuite une note unique à chacun des trois essais qui lui sont attribués.
La confusion potentielle
Mon collègue estime que la conception ci-dessus contient une confusion. Le problème, dit-il, est que, lorsqu'un essai de haute qualité doit être rédigé par un écrivain non blanc, il est toujours associé à un essai de haute qualité et un essai de faible qualité (pour l'essai 1, voir les participants 1-3 dans la figure). D'un autre côté, lorsque ce même essai est destiné à être rédigé par des écrivains blancs, il est associé à un essai de haute qualité et à un essai de faible qualité trois fois (pour l'essai 1, participants 4-6) et deux essais de faible qualité trois. fois (pour l'essai 1, participants 7-9).
Un problème similaire existe pour les essais de faible qualité. Lorsqu'un essai de faible qualité a un auteur masculin non blanc, il est toujours vu avec un essai de faible qualité et un essai de haute qualité (pour l'essai 3, voir Participants 7-9). Cependant, lorsque ce même essai a un auteur masculin blanc, il est vu avec un essai de haute qualité et un essai de faible qualité trois fois (pour l'essai 3, participants 10-12) et avec deux essais de haute qualité trois fois (pour l'essai 3, Participants 1-3).
La raison pour laquelle les schémas ci-dessus pourraient être problématiques est que nous supposons l'existence "d'effets de contraste". Plus précisément, si les essais de haute qualité sont évalués plus favorablement en moyenne lorsqu'ils sont associés à deux essais de faible qualité que lorsqu'ils sont associés à un essai de faible qualité et un essai de haute qualité (une hypothèse raisonnable), les essais masculins blancs peuvent recevoir des notes plus élevées que Essais féminins blancs, mâles noirs et femelles noires pour une raison autre que la paternité.
Un effet de contraste pour les essais de haute qualité peut ou non être équilibré par un effet de contraste pour les essais de faible qualité; c'est-à-dire qu'il peut ou non être le cas que les essais de faible qualité associés à deux essais de haute qualité soient évalués de manière particulièrement défavorable. Quoi qu'il en soit, mon collègue prétend que la possibilité d'effets de contraste de toute nature rend cette conception problématique aux fins de déterminer si les essais écrits par des hommes blancs sont évalués plus favorablement que les essais d'autres auteurs.
Pourquoi je crois que la confusion potentielle n'est pas un problème
Ce qui m'importe, c'est de savoir si nous sommes en mesure d'estimer dans quelle mesure les essais masculins blancs sont évalués différemment des autres essais (c'est-à-dire, si nous pouvons estimer nos effets d'intérêt), même en présence d'effets de contraste. J'ai donc effectué une simulation où j'ai simulé 50 jeux de données qui contenaient des effets de contraste et ajusté un modèle qui teste nos effets d'intérêt.
Le modèle spécifique est un modèle à effets mixtes avec des interceptions aléatoires pour l'essai (chaque essai est évalué par plusieurs participants) et le participant (chaque participant évalue plusieurs essais). Le niveau d'essai contient également des pentes aléatoires pour la race, le sexe et leur interaction (les deux variables sont manipulées dans l'essai) et le niveau participant contient une pente aléatoire pour la qualité (la qualité est manipulée parmi les participants). Les effets intéressants sont les effets de la race, du sexe, de l'interaction entre la race et le sexe et les interactions d'ordre supérieur entre chacune de ces variables et la qualité. Le but de cette simulation était de déterminer si l'introduction d'effets de contraste dans les données créerait des effets parasites de la race, du sexe, de l'interaction entre la race et le sexe, et les interactions d'ordre supérieur entre ces variables et la qualité. Voir le bloc de code ci-dessous pour plus de détails.
Selon la simulation, la présence d'effets de contraste ne biaiserait les estimations d'aucun de nos effets d'intérêt. De plus, la taille de l'effet de contraste peut être estimée dans le même modèle statistique que les autres effets du plan; pour moi, cela suggère déjà que les «effets de contraste» identifiés par mon collègue ne sont pas une confusion. Mon collègue reste cependant sceptique.
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
Encore une fois, ma question générale est la suivante: y a-t-il une confusion dans la conception que j'ai décrite? S'il n'y a pas de confusion, je voudrais savoir pourquoi les "effets de contraste" potentiels ne sont pas des confusion afin de pouvoir l'expliquer à mon collègue.