Il y a deux choses à discuter ici:
- Les faits qu'un glm tente de prédire comme la moyenne d'une distribution conditionnelle et estime ses paramètres par maximum de vraisemblance sont cohérents.yβ
- L'estimation des paramètres par maximum de vraisemblance ne détermine pas le mode d'une distribution. Du moins pas dans la formulation classique d'un glm.
Prenons l'exemple glm non trivial le plus simple, le modèle logistique. Dans la régression logistique, nous avons une réponse qui est de 0, 1 évaluée. Nous postulons que est bernoulli distribué conditionnellement à nos donnéesyy
y∣X∼Bernoulli(p(X))
Et nous essayons d'estimer la moyenne de cette distribution conditionnelle (qui dans ce cas est juste ) en la reliant à une fonction linéaire depX
log(p1−p)=Xβ
En faisant une pause et en réfléchissant, nous voyons dans ce cas qu'il est naturel de vouloir connaître , qui est un moyen d'une distribution conditionnelle.p
Dans la configuration glm, n'est pas estimé directement, c'est que la procédure d'estimation cible. Pour arriver à nous utilisons le maximum de vraisemblance. La probabilité d'observer un point de données partir de la distribution de bernoulli conditionnelle, étant donné la valeur de observée et un ensemble spécifique de paramètres , estpββyXβ
P(y∣X,β)=py(1−p)1−y
où est fonction de et via la relation de liaison.pβX
Notez que c'est qui est échantillonné à partir d'une distribution de probabilité ici, pas bêta.y
Pour appliquer le maximum de vraisemblance, nous inversons ceci dans une fonction de , considérant à la fois et comme fixes et observés:βXy
L(β)=py(1−p)1−y
Mais, n'est pas une fonction de densité , c'est une vraisemblance. Lorsque vous maximisez la probabilité, vous n'évaluez pas le mode d'une distribution, car il n'y a tout simplement pas de distribution vers, eh bien, modifiez la taille.L
Vous pouvez produire une densité à partir de en fournissant une distribution préalable sur les paramètres et en utilisant la règle de Bayes, mais dans la formulation classique de glm, cela n'est pas fait.Lβ