Équivalence entre les moindres carrés et MLE dans le modèle gaussien

Je suis nouveau dans le Machine Learning et j'essaie de l'apprendre par moi-même. Récemment, je lisais quelques notes de cours et j'avais une question de base.

La diapositive 13 indique que "l'estimation du moindre carré est identique à l'estimation du maximum de vraisemblance dans un modèle gaussien". Il semble que ce soit quelque chose de simple, mais je ne peux pas voir cela. Quelqu'un peut-il expliquer ce qui se passe ici? Je suis intéressé à voir les mathématiques.

J'essaierai plus tard de voir également le point de vue probabiliste de la régression Ridge et Lasso, donc s'il y a des suggestions qui m'aideront, cela sera très apprécié également.

regression bayesian least-squares

— Andy
source

La fonction objectif au bas de p. 13 est juste un multiple constant ( ) de la fonction objectif au bas de p. 10. MLE minimise les premiers tandis que les moindres carrés minimisent les seconds, QED.

n

$n$

— whuber

@whuber: Merci pour votre réponse. Eh bien, ce que je voulais savoir, c'est comment se fait-il que MLE fasse la minimisation.

— Andy

Voulez-vous dire la mécanique ou conceptuellement?

— whuber

@whuber: Les deux! Si je pouvais voir ces mathématiques, cela aiderait aussi.

— Andy

Le lien est rompu; L'absence d'une référence complète et de plus de contexte pour la citation rend difficile la suppression de la référence ou la recherche d'une autre source pour celle-ci. La diapositive 13 de ce lien est-elle suffisante? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf

— Glen_b -Reinstate Monica

Dans le modèle

$Y = X \beta + \epsilon$

où , la probabilité logicielle de pour un échantillon de sujets est (jusqu'à une constante additive) $\epsilon \sim N(0,\sigma^{2})$ $Y|X$ $n$

\frac{- n}{2} bûche (σ^{2}) - \frac{1}{2 σ^{2}} \sum_{je = 1}^{n} (y_{je} - X_{je} β)^{2}

$\frac{-n}{2} \log(\sigma^{2}) - \frac{1}{2 \sigma^{2}} \sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

vu en fonction de seulement , le maximiseur est exactement ce qui minimise $\beta$

\sum_{je = 1}^{n} (y_{je} - X_{je} β)^{2}

$\sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

cela rend-il l'équivalence claire?

— Macro
source

C'est précisément ce qui se trouve dans les diapositives mentionnées dans le PO

— whuber

Oui, je vois cela, mais ils n'écrivent pas réellement la log-vraisemblance gaussienne à la page 13, ce qui, après cela, rend évident que son argmax est le même que l'argmin des critères OLS, j'ai donc pensé que c'était un ajout utile.

— Macro

bon point: la diapositive est un peu sommaire avec les détails.

— whuber

Vous avez appris que, si vous savez que les erreurs sont normalement réparties autour de la droite de régression, l'estimateur des moindres carrés est "optimal" dans un certain sens, à l'exception de décider arbitrairement que les "moindres carrés" sont les meilleurs. Concernant la régression des crêtes, cette solution est équivalente (si vous êtes bayésien) à l'estimateur des moindres carrés lorsqu'un a priori gaussien est placé sur les . Dans un monde fréquentiste, cela équivaut à moindres carrés pénalisés. Les coefficients de régression logistique ne sont pas la solution à un problème des moindres carrés, ce qui ne serait pas analogue.

β

$\beta$

L_{2}

$L_{2}$

— Macro

La constante additive estn/2 log(2 *pi)

— SmallChess