Hesse de la fonction logistique

J'ai du mal à dériver la Hesse de la fonction objectif, $l(\theta)$ , en régression logistique où $l(\theta)$ est:

l (θ) = \sum_{i = 1}^{m} [y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))]

$l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right]$

$h_\theta(x)$ est une fonction logistique. Le Hessian est $X^T D X$ . J'ai essayé de le dériver en calculant $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ , mais il n'était pas évident pour moi comment accéder à la notation matricielle à partir de $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ .

Quelqu'un connaît-il un moyen propre et facile de dériver $X^T D X$ ?

logistic

— DSKim
source

qu'avez-vous obtenu pour

\frac{\partial^{2} l}{\partial θ_{i} \partial θ_{j}}

$\frac{\partial^2 l}{\partial \theta_i \partial \theta_j}$

— Glen_b -Reinstate Monica

Voici un bon ensemble de diapositives qui montrent le calcul exact que vous recherchez: sites.stat.psu.edu/~jiali/course/stat597e/notes2/logit.pdf

J'ai trouvé une merveilleuse vidéo qui calcule pas à pas la Hesse. Régression logistique (binaire) - calcul de la Hesse

— Naomi

Ici, je dérive toutes les propriétés et identités nécessaires pour que la solution soit autonome, mais à part cela, cette dérivation est propre et facile. Formalisons notre notation et écrivons la fonction de perte un peu plus compacte. Considérons $m$ échantillons $\{x_i,y_i\}$ de telle sorte que $x_i\in\mathbb{R}^d$ et $y_i\in\mathbb{R}$ . Rappelons que dans la régression logistique binaire, nous avons généralement la fonction d'hypothèse $h_\theta$ être la fonction logistique. Officiellement

h_{θ} (x_{i}) = σ (ω^{T} x_{i}) = σ (z_{i}) = \frac{1}{1 + e^{- z_{i}}},

$h_\theta(x_i)=\sigma(\omega^Tx_i)=\sigma(z_i)=\frac{1}{1+e^{-z_i}},$

où $\omega\in\mathbb{R}^d$ et $z_i=\omega^Tx_i$ . La fonction de perte (à laquelle je pense qu'il manque un signe négatif à OP) est alors définie comme suit:

l (ω) = \sum_{i = 1}^{m} - (y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i})))

$l(\omega)=\sum_{i=1}^m -\Big( y_i\log\sigma(z_i)+(1-y_i)\log(1-\sigma(z_i))\Big)$

Il y a deux propriétés importantes de la fonction logistique que je dérive ici pour référence future. Tout d'abord, notez que $1-\sigma(z)=1-1/(1+e^{-z})=e^{-z}/(1+e^{-z})=1/(1+e^z)=\sigma(-z)$ .

Notez également que

\begin{aligned} \frac{\partial}{\partial z} σ (z) = \frac{\partial}{\partial z} (1 + e^{- z})^{- 1} = e^{- z} (1 + e^{- z})^{- 2} & = \frac{1}{1 + e^{- z}} \frac{e^{- z}}{1 + e^{- z}} = σ (z) (1 - σ (z)) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial}{\partial z}\sigma(z)=\frac{\partial}{\partial z}(1+e^{-z})^{-1}=e^{-z}(1+e^{-z})^{-2}&=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} =\sigma(z)(1-\sigma(z)) \end{aligned} \end{equation}$

Au lieu de prendre des dérivées par rapport aux composants, nous travaillerons ici directement avec des vecteurs (vous pouvez revoir les dérivés avec des vecteurs ici ). La Hesse de la fonction de perte $l(\omega)$ est donnée par $\vec{\nabla}^2l(\omega)$ , mais rappelons d'abord que $\frac{\partial z}{\partial \omega} = \frac{x^T\omega}{\partial \omega}=x^T$ et $\frac{\partial z}{\partial \omega^T}=\frac{\partial \omega^Tx}{\partial \omega ^T} = x$ .

Soit $l_i(\omega)=-y_i\log\sigma(z_i)-(1-y_i)\log(1-\sigma(z_i))$ . En utilisant les propriétés que nous avons dérivées ci-dessus et la règle de chaîne

\begin{aligned} \frac{\partial \log σ (z_{i})}{\partial ω^{T}} & = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial ω^{T}} = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial z_{i}} \frac{\partial z_{i}}{\partial ω^{T}} = (1 - σ (z_{i})) x_{i} \\ \frac{\partial \log (1 - σ (z_{i}))}{\partial ω^{T}} & = \frac{1}{1 - σ (z_{i})} \frac{\partial (1 - σ (z_{i}))}{\partial ω^{T}} = - σ (z_{i}) x_{i} \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial \log\sigma(z_i)}{\partial \omega^T} &= \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial \omega^T} = \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial z_i}\frac{\partial z_i}{\partial \omega^T}=(1-\sigma(z_i))x_i\\ \frac{\partial \log(1-\sigma(z_i))}{\partial \omega^T}&= \frac{1}{1-\sigma(z_i)}\frac{\partial(1-\sigma(z_i))}{\partial \omega^T} =-\sigma(z_i)x_i \end{aligned} \end{equation}$

Il est désormais trivial de montrer que

\vec{\nabla} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω^{T}} = - y_{i} x_{i} (1 - σ (z_{i})) + (1 - y_{i}) x_{i} σ (z_{i}) = x_{i} (σ (z_{i}) - y_{i})

$\vec{\nabla}l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega^T} =-y_ix_i(1-\sigma(z_i))+(1-y_i)x_i\sigma(z_i)=x_i(\sigma(z_i)-y_i)$

ouf!

Notre dernière étape consiste à calculer la Hesse

{\vec{\nabla}}^{2} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω \partial ω^{T}} = x_{i} x_{i}^{T} σ (z_{i}) (1 - σ (z_{i}))

$\vec{\nabla}^2l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega\partial \omega^T}=x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$

Pour $m$ échantillons, nous avons $\vec{\nabla}^2l(\omega)=\sum_{i=1}^m x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$ . Cela équivaut à concaténer des vecteurs colonnes $x_i\in\mathbb{R}^d$ en une matrice $X$ de taille $d\times m$ telle que $\sum_{i=1}^m x_ix_i^T=XX^T$ . Les termes scalaires sont combinés dans une matrice diagonale $D$ telle que $D_{ii}=\sigma(z_i)(1-\sigma(z_i))$ . Enfin, nous concluons que

\vec{H} (ω) = {\vec{\nabla}}^{2} l (ω) = X D X^{T}

$\vec{H}(\omega)=\vec{\nabla}^2l(\omega)=XDX^T$

Une approche plus rapide peut être dérivée en considérant tous les échantillons à la fois depuis le début et en utilisant plutôt des dérivés matriciels. En plus, avec cette formulation, il est trivial de montrer que $l(\omega)$ est convexe. Soit $\delta$ tout vecteur tel que $\delta\in\mathbb{R}^d$ . alors

δ^{T} \vec{H} (ω) δ = δ^{T} {\vec{\nabla}}^{2} l (ω) δ = δ^{T} X D X^{T} δ = δ^{T} X D (δ^{T} X)^{T} = ‖ δ^{T} D X ‖^{2} \geq 0

$\delta^T\vec{H}(\omega)\delta = \delta^T\vec{\nabla}^2l(\omega)\delta = \delta^TXDX^T\delta = \delta^TXD(\delta^TX)^T = \|\delta^TDX\|^2\geq 0$

since $D>0$ and $\|\delta^TX\|\geq 0$ . This implies $H$ is positive-semidefinite and therefore $l$ is convex (but not strongly convex).

— Manuel Morales
source

In the last equation, shouldn't it be

| | δ D^{1 / 2} X | |

$||\delta D^{1/2}X||$ since

X D X^{⊤}

$XDX^\top$ =

X D^{1 / 2} (X D^{1 / 2})^{⊤}

$XD^{1/2}(XD^{1/2})^\top$ ?

— appletree

Shouldn't it be

X^{T} D X

$X^T D X$ ?

— Chintan Shah