J'ai des données d'une expérience d'enquête dans laquelle les répondants ont été assignés au hasard à l'un des quatre groupes:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Bien que les trois groupes de traitement varient légèrement dans le stimulus appliqué, la principale distinction qui m'importe est entre les groupes de contrôle et de traitement. J'ai donc défini une variable fictive Control
:
> summary(df$Control)
TRUE FALSE
59 191
Dans l'enquête, les répondants ont été invités (entre autres) à choisir laquelle des deux choses ils préféraient:
> summary(df$Prefer)
A B NA's
152 93 5
Ensuite, après avoir reçu des stimuli déterminés par leur groupe de traitement (et aucun s'ils faisaient partie du groupe témoin), les répondants devaient choisir entre les deux mêmes choses:
> summary(df$Choice)
A B
149 101
Je veux savoir si le fait d'être dans l'un des trois groupes de traitement a eu un effet sur le choix que les répondants ont fait dans cette dernière question. Mon hypothèse est que les répondants qui ont reçu un traitement sont plus susceptibles de choisir A
que B
.
Étant donné que je travaille avec des données catégorielles, j'ai décidé d'utiliser une régression logit (n'hésitez pas à carilloner si vous pensez que c'est incorrect). Étant donné que les répondants ont été attribués au hasard, j'ai l'impression que je ne devrais pas nécessairement avoir besoin de contrôler d'autres variables (par exemple, les données démographiques), donc je les ai laissées de côté pour cette question. Mon premier modèle était simplement le suivant:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
J'ai l'impression que l'interception étant statistiquement significative n'est pas quelque chose qui a un sens interprétable. J'ai pensé que je devrais peut-être inclure un terme d'interaction comme suit:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Maintenant, le statut des répondants comme dans un groupe de traitement a l'effet attendu. Était-ce un ensemble d'étapes valide? Comment interpréter le terme d'interaction ControlFALSE:PreferA
? Les autres coefficients sont-ils toujours les cotes logarithmiques?