Pouvez-vous donner une explication simple et intuitive de la méthode IRLS pour trouver le MLE d'un GLM?

Contexte:

J'essaie de suivre l'examen de Princeton de l'estimation MLE pour GLM .

Je comprends les bases de l' estimation MLE: likelihood, score, observée et attendue Fisher informationet la Fisher scoringtechnique. Et je sais comment justifier une régression linéaire simple avec une estimation MLE .

La question:

Je ne comprends même pas la première ligne de cette méthode :(

Quelle est l'intuition derrière les variables de travail définies comme: $z_i$

z_{i} = {\hat{η}}_{i} + (y_{i} - {\hat{μ}}_{i}) \frac{d η_{i}}{d μ_{i}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

Pourquoi sont-ils utilisés au lieu de pour estimer ? $y_i$ $\beta$

Et quelle est leur relation avec le response/link functionqui est le lien entre et $\eta$ $\mu$

Si quelqu'un a une explication simple ou peut me diriger vers un texte plus basique à ce sujet, je lui en serais reconnaissant.

— ihadanny
source

Par ailleurs, pour moi, j'ai découvert l'IRRL dans le contexte d' une estimation robuste (M-) avant d'entendre parler de l'ensemble du cadre "GLM" (que je ne comprends toujours pas bien). Pour une perspective pratique de cette approche, en tant que simple généralisation des moindres carrés, je recommanderais la source que j'ai rencontrée pour la première fois: Annexe B du livre Computer Vision (E-) gratuit de Richard Szeliski (les 4 premières pages, vraiment, bien que ces liens vers quelques bons exemples aussi).

— GeoMatt22

Il y a quelques années, j'ai écrit un article à ce sujet pour mes étudiants (en espagnol), afin que je puisse essayer de réécrire ces explications ici. Je vais regarder IRLS (moindres carrés itérativement repondérés) à travers une série d'exemples de complexité croissante. Pour le premier exemple, nous avons besoin du concept d'une famille à l'échelle de l'emplacement. Soit une fonction de densité centrée sur zéro dans un certain sens. On peut construire une famille de densités en définissant où est un paramètre d'échelle et $f_0$

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$ est un paramètre d'emplacement. Dans le modèle d'erreur de mesure, où le terme d'erreur est généralement modélisé comme une distribution normale, nous pouvons, à la place de cette distribution normale, utiliser une famille à l'échelle de l'emplacement telle que construite ci-dessus. Lorsque est la distribution normale standard, la construction ci-dessus donne la famille .

f_{0}

$f_0$

N (μ, σ)

$\text{N}(\mu, \sigma)$

Nous allons maintenant utiliser IRLS sur quelques exemples simples. On trouvera d'abord les estimateurs ML (maximum de vraisemblance) dans le modèle avec la densité la distribution de Cauchy la famille d'emplacement (c'est donc une famille d'emplacement). Mais d'abord une notation. L'estimateur des moindres carrés pondérés de est donné par

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

où

est un poids. Nous verrons que l'estimateur ML de

peut être exprimée sous la même forme, avec

une fonction des résidus

La fonction de vraisemblance est donnée par

μ^{*} = \frac{\sum_{i = 1}^{n} w_{i} y_{i}}{\sum_{i = 1}^{n} w_{i}} .

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$

et la fonction loglik vraisemblance est donnée par

Sa dérivée par rapport à

est

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

où

. Écrivez

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$

, on obtient

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

On trouve

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

où nous avons utilisé la définition

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

En se souvenant que

on obtient l'équation

qui est l'équation d'estimation de l'IRLS. Notez que

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$

Les poids sont toujours positifs. $w_i$
Si le résidu est important, nous accordons moins de poids à l'observation correspondante.

$\hat{\mu}^{(0)}$

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$

\hat{μ}

$\hat{\mu}$

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$

j + 1

$j+1$

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$

$f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ $Y_1,Y_2,\ldots,Y_n$ $\epsilon_i=\frac{y_i-\mu}{\sigma}$

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$

ν = σ^{2}

$\nu=\sigma^2$

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$

σ^{2}

$\sigma^2$

\begin{array}{rcl} \frac{\partial l (y)}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{(y_{i} - μ)}{2 σ^{3}}) \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{i} ϵ_{i}^{2} \overset{!}{=} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$

\hat{σ^{2}} = \frac{1}{n} \sum w_{i} (y_{i} - \hat{μ})^{2} .

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$

Dans ce qui suit, nous donnons un exemple numérique en utilisant R, pour le modèle exponentiel double (avec une échelle connue) et avec des données y <- c(-5,-1,0,1,5). Pour ces données, la vraie valeur de l'estimateur ML est 0. La valeur initiale sera mu <- 0.5. Un passage de l'algorithme est

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

avec cette fonction, vous pouvez expérimenter avec faire les itérations "à la main" Ensuite, l'algorithme itératif peut être fait par

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

$t_k$ $\sigma$

w_{i} = \frac{k + 1}{k + ϵ_{i}^{2}} .

$w_i = \frac{k+1}{k+\epsilon_i^2}.$

w (ϵ) = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} .

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

Pour le moment je vais le laisser ici, je vais continuer ce post.

— kjetil b halvorsen
source

u

$u$

u_{i}

$u_i$

J'ajouterai plus à cela, juste hors du temps maintenant! Les idées restent les mêmes, mais les détails s'impliquent davantage.

— kjetil b halvorsen

viendra à cela!

— kjetil b halvorsen

t_{k}

$t_k$

ça vous dérange d'écrire un article de blog quelque part en continuant cette explication? vraiment utile pour moi et je suis sûr que ce sera pour les autres ...

— ihadanny