Je me concentrerai principalement sur vos trois premières questions. Les réponses brèves sont: (1) vous devez comparer l'effet du IV sur le DV pour chaque période de temps mais (2) seule la comparaison des amplitudes peut conduire à des conclusions erronées, et (3) il existe de nombreuses façons de le faire, mais aucun consensus sur lequel est correct.
Ci-dessous, je décris pourquoi vous ne pouvez pas simplement comparer les amplitudes des coefficients et vous indique certaines solutions qui ont été envisagées jusqu'à présent.
Selon Allison (1999), contrairement à l'OLS, les coefficients de régression logistique sont affectés par une hétérogénéité non observée même lorsque cette hétérogénéité n'est pas liée à la variable d'intérêt.
Lorsque vous ajustez une régression logistique comme:
(1)
ln(11−pi)=β0+β1x1i
Vous ajustez en fait une équation prédisant la valeur d'une variable latente qui représente la propension sous-jacente de chaque observation à prendre la valeur dans la variable dépendante binaire, que se passe-t-il si est au-dessus d'un certain seuil. L'équation pour cela est (Williams, 2009): 1 y ∗y∗1y∗
(2)
y∗=α0+α1x1i+σε
Le terme est supposé être indépendant des autres termes et suivre une distribution logistique - ou une distribution normale dans le cas de probit et une distribution log-logistique en cas de log-log complémentaire et une distribution de cauchy dans le cas de cauchit.ε
Selon Williams (2009), les coefficients dans l' équation 2 sont liés aux coefficients dans l' équation 1 par:βαβ
(3)
βj=αjσj=1,...,J.
Dans les équations 2 et 3, est le facteur d'échelle de la variation non observée, et nous pouvons voir que la taille des coefficients estimés dépend de , ce qui n'est pas observé. Sur cette base, Allison (1999), Williams (2009) et Mood (2009), entre autres, affirment que vous ne pouvez pas naïvement comparer les coefficients entre les modèles logistiques estimés pour différents groupes, pays ou périodes.β σσβσ
En effet, les comparaisons peuvent produire des conclusions incorrectes si la variation non observée diffère entre les groupes, les pays ou les périodes. Les deux comparaisons utilisant des modèles différents et utilisant des termes d'interaction dans le même modèle souffrent de ce problème. Outre logit, cela s'applique également à ses cousins probit, clog-log, cauchit et, par extension, aux modèles d'aléa temporels discrets estimés à l'aide de ces fonctions de liaison. Les modèles logit commandés en sont également affectés.
Williams (2009) soutient que la solution consiste à modéliser la variation non observée à travers un modèle de choix hétérogène (aka, un modèle à l'échelle de l'emplacement), et fournit un complément Stata appelé oglm
pour cela (Williams 2010). Dans R, les modèles de choix hétérogènes peuvent être adaptés à la hetglm()
fonction du glmx
package, qui est disponible via CRAN. Les deux programmes sont très faciles à utiliser. Enfin, Williams (2009) mentionne la PLUM
routine de SPSS pour le montage de ces modèles, mais je ne l'ai jamais utilisée et je ne peux pas commenter sa facilité d'utilisation.
Cependant, il existe au moins un document de travail montrant que les comparaisons utilisant des modèles de choix hétérogènes peuvent être encore plus biaisées si l'équation de variance est mal spécifiée ou s'il y a une erreur de mesure.
Mood (2010) énumère d'autres solutions qui n'impliquent pas la modélisation de la variance, mais utilisent des comparaisons des changements de probabilité prévus.
Apparemment, c'est une question qui n'est pas réglée et je vois souvent des articles dans des conférences de mon domaine (sociologie) qui proposent différentes solutions. Je vous conseillerais de regarder ce que font les gens de votre domaine et de décider ensuite comment y faire face.
Les références
- Allison, PD (1999). Comparaison des coefficients Logit et Probit entre les groupes. Sociological Methods & Research, 28 (2), 186–208.
- Mood, C. (2010). Régression logistique: pourquoi nous ne pouvons pas faire ce que nous pensons pouvoir faire et ce que nous pouvons faire à ce sujet. Revue sociologique européenne, 26 (1), 67–82.
- Williams, R. (2009). Utilisation de modèles de choix hétérogènes pour comparer les coefficients Logit et Probit entre les groupes. Sociological Methods & Research, 37 (4), 531–559.
- Williams, R. (2010). Ajustement de modèles de choix hétérogènes avec oglm. The Stata Journal, 10 (4), 540–567.