Comme l'a souligné kjetil b halvorsen, c'est, à sa manière, un miracle que la régression linéaire admette une solution analytique. Et cela ne l'est que grâce à la linéarité du problème (par rapport aux paramètres). Dans OLS, vous avez
qui a les conditions de premier ordre
pour un problème avec variables (y compris constante, si nécessaire - il y a aussi une régression à travers les problèmes d'origine), c'est un système avec équations et inconnues. Plus important encore, c'est un système linéaire, vous pouvez donc trouver une solution en utilisant la théorie et la pratique de l'algèbre linéaire standard
∑i(yi−x′iβ)2→minβ,
−2∑i(yi−x′iβ)xi=0
ppp. Ce système aura une solution de probabilité 1 sauf si vous avez des variables parfaitement colinéaires.
Maintenant, avec la régression logistique, les choses ne sont plus aussi faciles. Notez la fonction log-vraisemblance,
et en prenant sa dérivée pour trouver le MLE, nous obtenons
Les paramètres entrent ceci de manière très non linéaire: pour chaque , il y a une fonction non linéaire, et ils sont additionnés. Il n'y a pas de solution analytique (sauf probablement dans une situation triviale avec deux observations, ou quelque chose comme ça), et vous devez utiliser
l(y;x,β)=∑iyilnpi+(1−yi)ln(1−pi),pi=(1+exp(−θi))−1,θi=x′iβ,
∂l∂β′=∑idpidθ(yipi−1−yi1−pi)xi=∑i[yi−11+exp(x′iβ)]xi
βiméthodes d'optimisation non linéaire pour trouver les estimations .
β^
Un examen un peu plus approfondi du problème (en prenant la dérivée seconde) révèle qu'il s'agit d'un problème d'optimisation convexe de la recherche d'un maximum d'une fonction concave (une parabole multivariée glorifiée), donc l'une ou l'autre existe, et tout algorithme raisonnable devrait la trouver plutôt rapidement, ou les choses explosent à l'infini. Ce dernier arrive à la régression logistique lorsque pour certains , c'est-à-dire que vous avez une prédiction parfaite. C'est un artefact plutôt désagréable: on pourrait penser que lorsque vous avez une prédiction parfaite, le modèle fonctionne parfaitement, mais curieusement, c'est l'inverse.Prob[Yi=1|x′iβ>c]=1c