Quelles sont les propriétés du MLE qui le rendent plus souhaitable que l'OLS?


8

Cette question semble suffisamment fondamentale pour que je sois convaincue qu'il y ait une réponse ici quelque part, mais je ne l'ai pas trouvée.

Je comprends que si la variable dépendante d'une régression est normalement distribuée, la probabilité maximale et les moindres carrés ordinaires produisent les mêmes estimations de paramètres.

Lorsque la variable dépendante n'est pas normalement distribuée, les estimations des paramètres OLS ne sont plus équivalentes à MLE mais elles sont toujours les meilleures estimations linéaires sans biais (BLUE).

Alors, quelles sont les propriétés du MLE qui le rendent souhaitable au-delà de ce que l'OLS a à offrir (être BLEU)?

En d'autres termes, qu'est-ce que je perds si je ne peux pas dire que mes estimations OLS sont des estimations de probabilité maximale?

Pour motiver un peu cette question: je me demande pourquoi je voudrais choisir un modèle de régression autre que l'OLS en présence d'une variable dépendante clairement non normale.


Cela dépend de ce que vous voulez du modèle. Les économétriciens veulent généralement des estimations de l'effet marginal moyen dans l'échantillon, et OLS les fournit (tant que vous n'êtes pas gêné par des hypothèses de séparabilité additive). Mais si vous voulez un modèle qui décrit d'autres caractéristiques du phénomène sous-jacent, OLS ne fonctionnera pas aussi bien. Par exemple, vous pourriez être intéressé par une prédiction hors échantillon ou souhaiter de meilleures estimations de l'incertitude.
generic_user

Il convient de mentionner que l'OLS est plus sensible aux valeurs aberrantes, car la fonction objectif utilise l'erreur quadratique (donc le problème s'aggrave plus l'écart est extrême). C'est pourquoi les techniques de «régression robuste» comme l'estimation M utilisent MLE au lieu de OLS.
HEITZ

Si le terme d'erreur n'est pas normal, les tests t et les tests F des coefficients peuvent ne pas être fiables. L'asymétrie extrême et les valeurs aberrantes extrêmes sont un problème particulier. En pratique, cela rend la spécification du modèle plus difficile, contribuant à un biais possible dans les estimations des coefficients (à partir d'une spécification erronée) et à de mauvaises performances de l'échantillon.
david25272

Réponses:


7

Lorsque vous vous éloignez suffisamment de la normalité, tous les estimateurs linéaires peuvent être arbitrairement mauvais .

Savoir que vous pouvez tirer le meilleur parti d'un mauvais lot (c'est-à-dire la meilleure estimation linéaire non biaisée) n'est pas une grande consolation.

Si vous pouvez spécifier un modèle de distribution approprié ( ay, il y a le hic ), maximiser la probabilité a à la fois un attrait intuitif direct - en ce qu'il "maximise la chance" de voir l'échantillon que vous avez réellement vu (avec un raffinement approprié de ce que nous par exemple pour le cas continu) et un certain nombre de propriétés très soignées qui sont à la fois théoriquement et pratiquement utiles (par exemple, relation avec la borne inférieure de Cramer-Rao, équivariance en cours de transformation, tests de rapport de rapport de vraisemblance, etc.). Cela motive par exemple M-estimation.

Même lorsque vous ne pouvez pas spécifier un modèle, il est possible de construire un modèle pour lequel ML est robuste à la contamination par des erreurs grossières dans la distribution conditionnelle de la réponse - où il conserve une assez bonne efficacité à la gaussienne mais évite le potentiellement désastreux impact des valeurs aberrantes arbitrairement importantes.

[Ce n'est pas la seule considération avec la régression, car il y a aussi un besoin de robustesse à l'effet des valeurs aberrantes influentes par exemple, mais c'est une bonne première étape]


Pour démontrer le problème, même avec le meilleur estimateur linéaire, considérez cette comparaison des estimateurs de pente pour la régression. Dans ce cas, il y a 100 observations dans chaque échantillon, x est 0/1, la pente vraie est et les erreurs sont Cauchy standard. La simulation prend 1000 ensembles de données simulées et calcule l'estimation des moindres carrés de la pente ("LS") ainsi que quelques estimateurs non linéaires qui pourraient être utilisés dans cette situation (aucun n'est entièrement efficace au Cauchy mais ils sont tous les deux raisonnables ) - l'un est un estimateur L1 de la droite ("L1") et le second calcule une simple estimation L de l'emplacement aux deux valeurs de x et ajuste une droite les joignant ("LE").12

boîtes à moustaches comparant les performances d'un estimateur de pente des moindres carrés avec des estimations d'erreur de pente robustes à brutes adaptées à cette situation

La partie supérieure du diagramme est un diagramme en boîte de ces milliers d'estimations de pente pour chaque simulation. La partie inférieure est le pour cent central (à peu près, il est marqué d'une légère zone orange-gris dans le graphique supérieur) de cette image "gonflée" afin que nous puissions voir plus de détails. Comme nous le voyons, les pentes des moindres carrés vont de -771 à 1224 et les quartiles inférieur et supérieur sont -1,24 et 2,46. L'erreur dans la pente LS était supérieure à 10 plus de 10% du temps. Les deux estimateurs non linéaires font beaucoup mieux - ils fonctionnent de manière assez similaire l'un à l'autre, aucune des 1 000 estimations de pente dans les deux cas ne se trouve à plus de 0,84 de la pente vraie et l'erreur absolue médiane dans la pente est de l'ordre de 0,14 pour chaque (vs 1,86 pour l'estimateur des moindres carrés). La pente LS a un RMSE de 223 et 232 fois celui des estimateurs L1 et LE dans ce cas (que '

Il existe des dizaines d'autres estimateurs raisonnables qui auraient pu être utilisés ici; il s'agissait simplement d'un calcul rapide pour illustrer que même les estimateurs linéaires les meilleurs / les plus efficaces peuvent ne pas être utiles. Un estimateur ML de la pente donnerait de meilleurs résultats (au sens MSE) que les deux estimateurs robustes utilisés ici, mais en pratique, vous voudriez quelque chose avec une certaine robustesse aux points influents.


Bien dit. Cela a du sens. Je suppose que les estimateurs linéaires fonctionnent toujours assez bien (peut-être même mieux que les estimateurs non linéaires) lorsque la variable dépendante est non normale mais toujours symétrique. Mon intuition est-elle correcte ici?
Great38

1
Non, la symétrie n'est pas suffisante pour sauver l'estimation linéaire. Prenons l'exemple des erreurs de Cauchy. Il existe un certain nombre d'estimateurs adéquats, mais ils sont tous non linéaires au sens voulu.
Glen_b -Reinstate Monica

J'ai fait une petite simulation pour illustrer que ce problème (de performances potentiellement arbitrairement mauvaises) s'applique aux distributions d'erreurs symétriques - voir ma modification. Cette simulation est pour une distribution d'erreur symétrique. Vous pouvez voir à quel point les moindres carrés peuvent être désastreux dans ce cas. En effet, même une infime fraction de la contamination par quelque chose qui peut avoir des erreurs grossières est un problème pour lui. Être BLEU peut parfois avoir peu de valeur. Si vous savez quelque chose sur le comportement de vos erreurs, il peut être judicieux d'utiliser ces connaissances ... ctd
Glen_b -Reinstate Monica

ctd ... (via ML, disons, même si vous le complétez avec un peu de robustesse au cas où vous auriez tort; comme limiter la fonction d'influence de l'estimateur M résultant) et si vous ne savez rien - pas assez pour supposer un vraisemblance - cela ne vaut pas nécessairement le risque potentiel de supposer qu'un estimateur linéaire sera un excellent choix. Je ne dirais pas "n'utilisez jamais les moindres carrés" (je l'utilise assez régulièrement mais je suis parfaitement conscient de la façon dont il peut potentiellement fonctionner) - mais BLUE en soi ne signifie pas nécessairement que c'est un bon choix.
Glen_b -Reinstate Monica

1

Dans le cas de données normalement distribuées, OLS converge avec le MLE, une solution qui est BLEUE (en ce point). Une fois hors de la normale, OLS n'est plus BLEU (selon les termes du théorème de Gauss-Markov) - c'est parce que OLS cherche à minimiser le SSR tandis que GMT définit BLUE en termes de SE minimal. Voir plus ici .

D'une manière générale, étant donné qu'il existe un MLE (google pour `` échec MLE '' ou pour les cas où le MLE n'existe pas), il est plus facile de l'ajuster, soit pour minimiser la variance soit pour la rendre non biaisée (et donc comparable à d'autres estimateurs) .


3
La variable dépendante n'a pas besoin d'être normale pour que OLS soit BLEU: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem
Great38

1
... en outre, avec des données normalement distribuées, OLS = le MLE, il n'y converge pas. Votre deuxième paragraphe est également assez peu clair ... plus facile à régler le MLE que quoi?
jbowman

OLS est toujours BLEU en dehors de la normalité; le problème est que le BLEU (et en particulier le L ) lui-même n'est pas nécessairement une chose utile à avoir.
Glen_b -Reinstate Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.