Lorsque vous vous éloignez suffisamment de la normalité, tous les estimateurs linéaires peuvent être arbitrairement mauvais .
Savoir que vous pouvez tirer le meilleur parti d'un mauvais lot (c'est-à-dire la meilleure estimation linéaire non biaisée) n'est pas une grande consolation.
Si vous pouvez spécifier un modèle de distribution approprié ( ay, il y a le hic ), maximiser la probabilité a à la fois un attrait intuitif direct - en ce qu'il "maximise la chance" de voir l'échantillon que vous avez réellement vu (avec un raffinement approprié de ce que nous par exemple pour le cas continu) et un certain nombre de propriétés très soignées qui sont à la fois théoriquement et pratiquement utiles (par exemple, relation avec la borne inférieure de Cramer-Rao, équivariance en cours de transformation, tests de rapport de rapport de vraisemblance, etc.). Cela motive par exemple M-estimation.
Même lorsque vous ne pouvez pas spécifier un modèle, il est possible de construire un modèle pour lequel ML est robuste à la contamination par des erreurs grossières dans la distribution conditionnelle de la réponse - où il conserve une assez bonne efficacité à la gaussienne mais évite le potentiellement désastreux impact des valeurs aberrantes arbitrairement importantes.
[Ce n'est pas la seule considération avec la régression, car il y a aussi un besoin de robustesse à l'effet des valeurs aberrantes influentes par exemple, mais c'est une bonne première étape]
Pour démontrer le problème, même avec le meilleur estimateur linéaire, considérez cette comparaison des estimateurs de pente pour la régression. Dans ce cas, il y a 100 observations dans chaque échantillon, x est 0/1, la pente vraie est et les erreurs sont Cauchy standard. La simulation prend 1000 ensembles de données simulées et calcule l'estimation des moindres carrés de la pente ("LS") ainsi que quelques estimateurs non linéaires qui pourraient être utilisés dans cette situation (aucun n'est entièrement efficace au Cauchy mais ils sont tous les deux raisonnables ) - l'un est un estimateur L1 de la droite ("L1") et le second calcule une simple estimation L de l'emplacement aux deux valeurs de x et ajuste une droite les joignant ("LE").12
La partie supérieure du diagramme est un diagramme en boîte de ces milliers d'estimations de pente pour chaque simulation. La partie inférieure est le pour cent central (à peu près, il est marqué d'une légère zone orange-gris dans le graphique supérieur) de cette image "gonflée" afin que nous puissions voir plus de détails. Comme nous le voyons, les pentes des moindres carrés vont de -771 à 1224 et les quartiles inférieur et supérieur sont -1,24 et 2,46. L'erreur dans la pente LS était supérieure à 10 plus de 10% du temps. Les deux estimateurs non linéaires font beaucoup mieux - ils fonctionnent de manière assez similaire l'un à l'autre, aucune des 1 000 estimations de pente dans les deux cas ne se trouve à plus de 0,84 de la pente vraie et l'erreur absolue médiane dans la pente est de l'ordre de 0,14 pour chaque (vs 1,86 pour l'estimateur des moindres carrés). La pente LS a un RMSE de 223 et 232 fois celui des estimateurs L1 et LE dans ce cas (que '
Il existe des dizaines d'autres estimateurs raisonnables qui auraient pu être utilisés ici; il s'agissait simplement d'un calcul rapide pour illustrer que même les estimateurs linéaires les meilleurs / les plus efficaces peuvent ne pas être utiles. Un estimateur ML de la pente donnerait de meilleurs résultats (au sens MSE) que les deux estimateurs robustes utilisés ici, mais en pratique, vous voudriez quelque chose avec une certaine robustesse aux points influents.