Pour une régression logistique binaire, le cas d'utilisation habituel pour le GLM binomial avec un lien logit, vous modélisez la probabilité que votre variable dépendante soit un «succès» (ou «oui»), classiquement codé comme . Pour ce faire, modélisez les cotes du journal. Donc, plutôt que de modéliser la moyenne de la réponse comme dans OLS, vous modélisez le changement dans les cotes du journal:1
Pr(y=1)=θ=logit−1(β0+β1x1+β2x2+...+β7x7)
Où et .logit(x)=log(x1−x)logit−1(x)=exp(x)1+exp(x)
Une explication plus approfondie et très accessible de cela peut être trouvée dans Agresti, An Introduction to Categorical Data Analysis.
Mais à votre question particulière, vous déclarez que vous modélisez la proportion de succès. Ce n'est pas vraiment ce à quoi sert un GLM binomial. Cependant, ce que vous cherchez vraiment, c'est ce que fait un GLM binomial, et c'est toujours possible dans R. Cela nécessite juste un léger ajustement à ce que vous faites. Dans le cas où vous avez un nombre fini d'essais qui peut avoir succès, vous pouvez toujours utiliser le même modèle, qui a la densité
Parce que vos valeurs sont fixées par la conception expérimentale, et est vos succès observés, vous effectuez une inférence sur le paramètreny∈{0...n}
Pr(y)∼(ny)θy(1−θ)n−y
nyθ de la même manière que le cas de réponse binaire plus typique (ci-dessus), dans lequel est fixé à 1, prend la valeur 1 avec la probabilité , et est une fonction de vos paramètres. Pour le cas du lien logit, nous modélisons , principalement parce que ce transformé existe sur toute la ligne réelle, plutôt que sur l'intervalle unitaire . (D'autres propriétés souhaitables du lien logit sont décrites dans Agresti, y compris la validité des coefficients même dans des contextes où des échantillons non aléatoires comme des plans de contrôle de cas sont utilisés; ce n'est pas le cas, par exemple, des fonctions de lien probit.)
nyθθlogit(θ)=β0+β1x1+...+βixi
θ
En termes de R, créez simplement un objet (que vous appelez glmDV
) qui est une matrice à 2 colonnes, la première colonne le nombre de succès et la seconde le nombre total d'échecs . Le reste de la déclaration reste le même!yn−y
0
s &1
s (que je suppose être ce que vous avez basé sur votre description), vous devez utiliser unweights
argument w / ? Glm , où les poids sont le nombre total d'essais pour chaque observation.