Régression linéaire: toute distribution non normale donnant l'identité de l'OLS et du MLE?


13

Cette question est inspirée de la longue discussion dans les commentaires ici: Comment la régression linéaire utilise-t-elle la distribution normale?

Dans le modèle de régression linéaire habituel, pour plus de simplicité, écrit ici avec un seul prédicteur: où les sont des constantes connues et sont des termes d'erreur indépendants de moyenne nulle. Si nous supposons en outre des distributions normales pour les erreurs, alors les estimateurs des moindres carrés habituels et les estimateurs du maximum de vraisemblance de sont identiques.x i ϵ i β 0 , β 1

Yi=β0+β1xi+ϵi
xiϵiβ0,β1

Donc ma question facile: existe-t-il une autre distribution pour les termes d'erreur telle que les mle soient identiques à l'estimateur des moindres carrés ordinaires? La première implication est facile à montrer, l'autre pas.


1
(+1) Il faudrait que ce soit une distribution centrée autour de zéro, et il semblerait que cela aiderait si elle était symétrique. Certains candidats qui me viennent à l'esprit, comme la distribution t- ou Laplace, ne semblent pas faire l'affaire car le MLE est, même dans le seul cas constant, non disponible sous forme fermée ou donnée par la médiane, respectivement.
Christoph Hanck

voir aussi stats.stackexchange.com/questions/99014/… , il semble qu'il n'y ait que peu de choses à trouver
Christoph Hanck

Je suis sûr que la réponse est non. Il peut cependant être difficile d'écrire une preuve rigoureuse.
Gordon Smyth

Réponses:


11

Dans l'estimation du maximum de vraisemblance, nous calculons

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

la dernière relation prenant en compte la structure de linéarité de l'équation de régression.

En comparaison, l'estimateur OLS satisfait

ϵixi=0

Afin d'obtenir des expressions algébriques identiques pour les coefficients de pente, nous devons avoir une densité pour le terme d'erreur telle que

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Ce sont des équations différentielles de la forme qui ont des solutionsy=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Toute fonction qui possède ce noyau et s'intègre à l'unité sur un domaine approprié, rendra identiques le MLE et l'OLS pour les coefficients de pente. A savoir que nous recherchons

g(x)=Aexp{±12cx2}:abg(x)dx=1

Y a-t-il un tel qui n'est pas la densité normale (ou la demi-normale ou la dérivée de la fonction d'erreur)? g

Certainement. Mais une autre chose à considérer est la suivante: si on utilise le signe plus dans l'exposant, et un support symétrique autour de zéro par exemple, on obtiendra une densité qui a un minimum unique au milieu, et deux maxima locaux à les limites du support.


Excellente réponse (+1), mais si l'on utilise un signe plus dans la fonction, est-ce même une densité? Il semblerait alors que la fonction a une intégrale infinie et ne peut donc pas être normalisée à une fonction de densité. Si tel est le cas, il ne nous reste que la distribution normale.
Rétablir Monica

1
@Ben Merci. Il semble que vous supposiez implicitement que la plage de la variable aléatoire sera l'infini plus / moins. Mais nous pouvons définir un rv à plage dans un intervalle borné, auquel cas nous pouvons très bien utiliser le signe plus. C'est pourquoi dans mes expressions j'ai utilisé comme limites d'intégration . (a,b)
Alecos Papadopoulos

C'est vrai - je supposais cela.
Rétablir Monica

5

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
f0(y|x)(β0,β1)

y

h(||yXβ||)
h()ϵi

1
Cela ne me semble pas correct. Si vous utilisez une distribution sphérique symétrique différente, cela ne conduirait-il pas à la minimisation d'une fonction de la norme différente de celle du carré (ce qui n'est donc pas une estimation des moindres carrés)?
Rétablir Monica

1

Je ne savais pas à propos de cette question jusqu'à ce que @ Xi'an vient de mettre à jour avec une réponse. Il existe une solution plus générique. Les distributions de familles exponentielles avec certains paramètres fixaient les divergences de Bregman. Pour de telles distributions, la moyenne est le minimiseur. Le minimiseur OLS est également la moyenne. Par conséquent, pour toutes ces distributions, elles devraient coïncider lorsque la fonction linéaire est liée au paramètre moyen.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

enter image description here

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.