Nous avons demandé à 60 personnes de répertorier autant de franchises de restaurants à Atlanta que possible. La liste globale comprenait plus de 70 restaurants, mais nous avons éliminé ceux qui étaient mentionnés par moins de 10% des gens, nous en laissant 45. Pour ces 45, nous avons calculé la proportion d'informateurs qui ont inscrit la franchise, et nous sommes intéressés par modéliser cette proportion en fonction du budget publicitaire des franchises (transformées en rondins) et des années écoulées depuis qu'elles sont devenues franchisées.
J'ai donc écrit ce code:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Comme prévu, les deux variables présentent des effets forts et significatifs.
Mais même si je sais que les données proportionnelles ne doivent jamais être modélisées avec la régression OLS, j'ai ensuite écrit ce code:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Dans ce cas, le «budget» est toujours un prédicteur significatif, mais les «années» sont relativement faibles et non significatives.
Cela m'inquiète que la confiance dans les estimations soit artificiellement gonflée par l'agrégation. Le glm binomial ne vectorise-t-il pas essentiellement les données de sorte que le modèle est basé sur 45 * 55 = 2 475 lignes? Est-ce approprié étant donné qu'il n'y a vraiment que 45 restaurants et 55 informateurs? Cela nécessiterait-il une modélisation à effets mixtes?
lm
et glm(...,family=binomial)
, mais l'une des plus importantes est qu'un GLM binomial émet de fortes hypothèses sur la variance. Si les données ne sont pas trop dispersées, l'agrégation / la désagrégation ne fait aucune différence.
family=quasibinomial