Ici, je dérive toutes les propriétés et identités nécessaires pour que la solution soit autonome, mais à part cela, cette dérivation est propre et facile. Formalisons notre notation et écrivons la fonction de perte un peu plus compacte. Considérons m échantillons {xi,yi} de telle sorte que xi∈Rd et yi∈R . Rappelons que dans la régression logistique binaire, nous avons généralement la fonction d'hypothèse hθ être la fonction logistique. Officiellement
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
où ω∈Rd et zi=ωTxi . La fonction de perte (à laquelle je pense qu'il manque un signe négatif à OP) est alors définie comme suit:
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
Il y a deux propriétés importantes de la fonction logistique que je dérive ici pour référence future. Tout d'abord, notez que 1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
Notez également que
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
Au lieu de prendre des dérivées par rapport aux composants, nous travaillerons ici directement avec des vecteurs (vous pouvez revoir les dérivés avec des vecteurs ici ). La Hesse de la fonction de perte l(ω) est donnée par ∇⃗ 2l(ω) , mais rappelons d'abord que ∂z∂ω=xTω∂ω=xTet∂z∂ωT=∂ωTx∂ωT=x.
Soit li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . En utilisant les propriétés que nous avons dérivées ci-dessus et la règle de chaîne
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
Il est désormais trivial de montrer que
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
ouf!
Notre dernière étape consiste à calculer la Hesse
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
Pour m échantillons, nous avons ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . Cela équivaut à concaténer des vecteurs colonnes xi∈Rd en une matrice X de taille d×m telle que ∑mi=1xixTi=XXT . Les termes scalaires sont combinés dans une matrice diagonaleD telle queDii=σ(zi)(1−σ(zi)) . Enfin, nous concluons que
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
Une approche plus rapide peut être dérivée en considérant tous les échantillons à la fois depuis le début et en utilisant plutôt des dérivés matriciels. En plus, avec cette formulation, il est trivial de montrer que l(ω) est convexe. Soit δ tout vecteur tel que δ∈Rd . alors
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
since D>0 and ∥δTX∥≥0. This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).