Méthode du maximum de vraisemblance vs méthode des moindres carrés

Quelle est la principale différence entre l'estimation du maximum de vraisemblance (EVM) et l'estimation par la méthode des moindres carrés (EVC)?

Pourquoi ne pouvons-nous pas utiliser MLE pour prédire les valeurs dans la régression linéaire et inversement? $y$

Toute aide sur ce sujet sera grandement appréciée.

— evros
source

Vous pouvez utiliser MLE en régression linéaire si vous le souhaitez. Cela peut même avoir un sens si la distribution d'erreur est non normale et si votre objectif est d'obtenir l'estimation "la plus probable" plutôt que celle qui minimise la somme des carrés.

— Richard Hardy

Sous l'hypothèse d'erreur normale, comme on le suppose généralement dans la régression linéaire, le MLE et le LSE sont identiques!

— TrynnaDoStat

Recherchez sur notre site le théorème de Gauss-Markov .

— whuber

Merci pour toutes vos réponses. Maintenant, cela a du sens. En cherchant ce sujet sur le net, je suis tombé sur cet article. Peut-être que cela aide aussi: radfordneal.wordpress.com/2008/08/09/…

— evros

Une réponse est également fournie à l' adresse stats.stackexchange.com/questions/12562/… .

— whuber

Réponses:

J'aimerais donner une réponse simple.

Quelle est la principale différence entre l'estimation du maximum de vraisemblance (EVM) et l'estimation par les moindres carrés (EVC)?

Comme @TrynnaDoStat l'a commenté, minimiser l'erreur quadratique équivaut à maximiser la probabilité dans ce cas. Comme dit dans Wikipedia ,

Dans un modèle linéaire, si les erreurs appartiennent à une distribution normale, les estimateurs des moindres carrés sont également les estimateurs du maximum de vraisemblance.

ils peuvent être considérés comme les mêmes dans votre cas,

$y$

Y_{i} = λ_{1} X_{i} + λ_{2} + ϵ_{i} where ϵ \sim N (0, σ^{2})

$Y_i=\lambda_1X_i+\lambda_2+\epsilon_i \quad\text{ where }\epsilon\thicksim N(0,\sigma^2)$

L (Y_{1}, \dots, Y_{n}; λ_{1}, λ_{2}, σ^{2}) = \frac{1}{(2 π)^{\frac{n}{2} σ^{n}}} e x p (\frac{- 1}{2 σ^{2}} (\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}))

$L(Y_1,\dots,Y_n;\lambda_1,\lambda_2,\sigma^2)=\frac{1}{(2\pi)^{\frac{n}{2}\sigma^n}}exp(\frac{-1}{2\sigma^2}(\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2))$

\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}

$\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2$

$y$

$y$

— Lerner Zhang
source

Vous voudrez peut-être définir «ce cas» un peu plus clairement, car en général, le maximum de vraisemblance et les moindres carrés ne sont pas la même chose.

— Matthew Gunn

@ MatthewGunn Oui, j'ai utilisé "équivalent à" autre que "le même".

— Lerner Zhang

Ce serait bien si vous pouviez nous donner un exemple où le modèle linéaire suit une distribution d'erreur non normale et comment vous utilisez MLE dans un tel cas pour estimer les meilleurs coefficients. Si ce n’est pas possible, vous pouvez au moins nous indiquer une source correcte, ce qui est démontré à l’aide de modèles linéaires tels que la régression de Poisson

— VM_AI

$L_1$ $L_2$

$L_2$ $L_2$

surveillance des données
paramètres stochastiques
contraintes faibles

Les applications professionnelles ne tiennent pas uniquement aux données, elles vérifient:

si le paramètre est significatif
si votre jeu de données a des valeurs aberrantes
quelle valeur aberrante peut être tolérée car elle ne nuit pas à la performance
quelle mesure devrait être supprimée car elle ne contribue pas au degré de liberté

En outre, il existe un grand nombre de tests statistiques spécialisés pour les hypothèses. Cela ne s’applique pas nécessairement à tous les estimateurs de ML ou devrait au moins être indiqué avec une preuve.

$L_2$

$\mathbf{X\beta}=\mathbf{L}+\mathbf{r}$ $(\mathbf{X}^{T}\mathbf{X})^{-1}$ $L_2$

N'hésitez pas à demander des détails.

— nali
source