Réponse courte
La densité de probabilité d'une variable distribuée gaussienne multivariée , avec une moyenne est liée au carré de l'euclidienne distance entre la moyenne et la variable ( ), c'est-à-dire la somme des carrés.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μ−x|22
Longue réponse
Si vous multipliez plusieurs distributions gaussiennes pour vos erreurs, où vous supposez des écarts égaux, vous obtenez une somme de carrés.n
L(μj,xij)=P(xij|μj)=∏ni=112πσ2√exp[−(xij−μi)22σ2]=(12πσ2√)nexp[−∑ni=1(xij−μi)22σ2]
ou sous la forme logarithmique pratique:
log(L(μj,xij))=nlog(12πσ2−−−−√)−12σ2∑i=1n(xij−μj)2
Donc, optimiser le pour minimiser la somme des carrés équivaut à maximiser la vraisemblance (log) (c'est-à-dire le produit de plusieurs distributions gaussiennes ou la distribution gaussienne multivariée).μ
C'est ce carré imbriqué de la différence intérieur de la structure exponentielle, , que les autres distributions n'ont pas.(μ−x)exp[(xi−μ)2]
Comparer par exemple avec le cas des distributions de Poisson
log(L)=log(∏μxijjxij!exp[−μj])=−∑μj−∑log(xij!)+∑log(μj)xij
qui a un maximum lorsque les éléments suivants sont minimisés:
∑μj−log(μj)xij
qui est une bête différente.
De plus (historique)
L'histoire de la distribution normale (en ignorant que deMoivre arrive à cette distribution comme approximation de la distribution binomiale) est en fait la découverte de la distribution qui fait que le MLE correspond à la méthode des moindres carrés (plutôt que la méthode des moindres carrés étant une méthode qui peut exprimer le MLE de la distribution normale, d'abord la méthode des moindres carrés, puis la distribution gaussienne)
Notez que Gauss, reliant la «méthode du maximum de vraisemblance» à la «méthode des moindres carrés», a abouti à la «distribution gaussienne», , comme la seule distribution des erreurs qui nous amène à faire ce lien entre les deux méthodes.e−x2
De la traduction de Charles Henry Davis (Théorie du mouvement des corps célestes se déplaçant autour du soleil en sections coniques. Une traduction du "Theoria motus" de Gauss avec une annexe) ...
Gauss définit:
En conséquence, la probabilité à attribuer à chaque erreur sera exprimée par une fonction de que nous désignerons par .ΔΔψΔ
(Italisation faite par moi)
Et continue ( à l'article 177 pp. 258 ):
... d'où il est facilement déduit que doit être une quantité constante. que nous désignerons par . Nous avons donc désignant la base des logarithmes hyperboliques par et supposantψ′ΔΔklog ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
eConstant=logx
finir (après normalisation et réaliser ) dansk<0
ψΔ=hπ−−√e−hhΔΔ
Écrit par StackExchangeStrike