Le modèle de régression linéaire
Oui= Xβ+ ϵ , oùϵ ∼ N( 0 , jeσ2)
Oui∈ Rn , etX∈ Rn × pβ∈ Rp
Notez que notre erreur de modèle (résiduelle) est . Notre objectif est de trouver un vecteur de qui minimise la norme carré de cette erreur.ϵ = Y - X ββL2
Moindres carrés
Étant donné les données où chaque est de dimension , nous cherchons à trouver:(x1,y1),...,(xn,yn)xip
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Plausibilité maximum
En utilisant le modèle ci-dessus, nous pouvons configurer la probabilité des données en fonction des paramètres comme:β
L(Y|X,β)=∏i=1nf(yi|xi,β)
où est le pdf d'une distribution normale de moyenne 0 et de variance . Le brancher:f(yi|xi,β)σ2
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Maintenant, généralement, lorsqu'il s'agit de probabilités, il est mathématiquement plus facile de prendre le journal avant de continuer (les produits deviennent des sommes, les exponentielles disparaissent), alors faisons-le.
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Puisque nous voulons l'estimation du maximum de vraisemblance, nous voulons trouver le maximum de l'équation ci-dessus, par rapport à . Le premier terme n'a pas d'impact sur notre estimation de , nous pouvons donc l'ignorer:ββ
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Notez que le dénominateur est une constante par rapport à . Enfin, notez qu'il y a un signe négatif devant la somme. Donc, trouver le maximum d'un nombre négatif, c'est comme trouver le minimum sans le négatif. En d'autres termes:β
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Rappelons que pour que cela fonctionne, nous avons dû faire certaines hypothèses de modèle (normalité des termes d'erreur, 0 moyenne, variance constante). Cela rend les moindres carrés équivalents à MLE dans certaines conditions. Voir ici et ici pour plus de discussion.
Pour être complet, notez que la solution peut être écrite comme:
β=(XTX)−1XTy