Relation entre MLE et moindres carrés en cas de régression linéaire

Hastie et Tibshirani mentionnent dans la section 4.3.2 de leur livre que dans le cadre de la régression linéaire, l'approche des moindres carrés est en fait un cas spécial de maximum de vraisemblance. Comment prouver ce résultat?

PS: n'épargne aucun détail mathématique.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
source

Ce n'est pas un cas particulier: ils sont juste identiques lorsque la distribution des erreurs est normale.

— Zhanxiong

Le modèle de régression linéaire

$Y = X\beta + \epsilon$ , où $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , et $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Notez que notre erreur de modèle (résiduelle) est . Notre objectif est de trouver un vecteur de qui minimise la norme carré de cette erreur. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Moindres carrés

Étant donné les données où chaque est de dimension , nous cherchons à trouver: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Plausibilité maximum

En utilisant le modèle ci-dessus, nous pouvons configurer la probabilité des données en fonction des paramètres comme: $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

où est le pdf d'une distribution normale de moyenne 0 et de variance . Le brancher: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Maintenant, généralement, lorsqu'il s'agit de probabilités, il est mathématiquement plus facile de prendre le journal avant de continuer (les produits deviennent des sommes, les exponentielles disparaissent), alors faisons-le.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Puisque nous voulons l'estimation du maximum de vraisemblance, nous voulons trouver le maximum de l'équation ci-dessus, par rapport à . Le premier terme n'a pas d'impact sur notre estimation de , nous pouvons donc l'ignorer: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Notez que le dénominateur est une constante par rapport à . Enfin, notez qu'il y a un signe négatif devant la somme. Donc, trouver le maximum d'un nombre négatif, c'est comme trouver le minimum sans le négatif. En d'autres termes: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Rappelons que pour que cela fonctionne, nous avons dû faire certaines hypothèses de modèle (normalité des termes d'erreur, 0 moyenne, variance constante). Cela rend les moindres carrés équivalents à MLE dans certaines conditions. Voir ici et ici pour plus de discussion.

Pour être complet, notez que la solution peut être écrite comme:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
source