Il est très souvent indiqué que la minimisation des résidus les moins carrés est préférable à la minimisation des résidus absolus en raison de sa simplicité de calcul . Mais cela peut aussi être mieux pour d'autres raisons. À savoir, si les hypothèses sont vraies (et ce n'est pas si rare), cela fournit une solution qui est (en moyenne) plus précise.
Plausibilité maximum
La régression des moindres carrés et la régression quantile (lorsqu'elles sont effectuées en minimisant les résidus absolus) peuvent être considérées comme maximisant la fonction de vraisemblance pour les erreurs distribuées gaussiennes / Laplace, et sont en ce sens très liées.
Distribution gaussienne:
f(x)=12πσ2−−−−√e−(x−μ)22σ2
la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus au carré
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Distribution Laplace:
f(x)=12be−|x−μ|b
la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus absolus
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|sum of absolute residuals
Remarque: la distribution de Laplace et la somme des résidus absolus se rapportent à la médiane, mais elle peut être généralisée à d'autres quantiles en donnant différents poids aux résidus négatifs et positifs.
Répartition des erreurs connues
Lorsque nous connaissons la distribution d'erreur (lorsque les hypothèses sont vraisemblablement vraies), il est logique de choisir la fonction de vraisemblance associée. Minimiser cette fonction est plus optimal.
Très souvent, les erreurs sont distribuées (approximativement) normalement. Dans ce cas, l'utilisation des moindres carrés est la meilleure façon de trouver le paramètre μ (qui se rapporte à la fois à la moyenne et à la médiane). C'est le meilleur moyen car il présente la variance d'échantillon la plus faible (la plus faible de tous les estimateurs sans biais ). Ou vous pouvez dire plus fortement: qu'il est stochastiquement dominant (voir l'illustration dans cette question comparant la distribution de la médiane de l'échantillon et la moyenne de l'échantillon).
Ainsi, lorsque les erreurs sont réparties normalement, la moyenne de l'échantillon est un meilleur estimateur de la médiane de distribution que la médiane de l'échantillon . La régression des moindres carrés est un estimateur plus optimal des quantiles. C'est mieux que d'utiliser la moindre somme de résidus absolus.
Étant donné que de nombreux problèmes concernent des erreurs distribuées normales, l'utilisation de la méthode des moindres carrés est très populaire. Pour travailler avec d'autres types de distributions, on peut utiliser le modèle linéaire généralisé . Et, la méthode des moindres carrés itératifs, qui peut être utilisée pour résoudre les GLM, fonctionne également pour la distribution de Laplace (c'est-à-dire pour les écarts absolus ), ce qui équivaut à trouver la médiane (ou dans la version généralisée d'autres quantiles).
Distribution des erreurs inconnue
Robustesse
La médiane ou d'autres quantiles ont l'avantage d'être très robustes quant au type de distribution. Les valeurs réelles importent peu et les quantiles ne se soucient que de l'ordre. Quelle que soit la distribution, minimiser les résidus absolus (ce qui équivaut à trouver les quantiles) fonctionne très bien.
La question devient ici complexe et large et dépend du type de connaissances que nous avons ou n'avons pas sur la fonction de distribution. Par exemple, une distribution peut être distribuée approximativement normalement, mais uniquement avec des valeurs aberrantes supplémentaires. Cela peut être résolu en supprimant les valeurs externes. Cette suppression des valeurs extrêmes fonctionne même pour estimer le paramètre de localisation de la distribution de Cauchy où la moyenne tronquée peut être un meilleur estimateur que la médiane. Donc, non seulement pour la situation idéale lorsque les hypothèses se vérifient, mais aussi pour certaines applications moins idéales (par exemple, des valeurs aberrantes supplémentaires), il pourrait y avoir de bonnes méthodes robustes qui utilisent toujours une certaine forme d'une somme de résidus carrés au lieu d'une somme de résidus absolus.
J'imagine que la régression avec des résidus tronqués pourrait être beaucoup plus complexe sur le plan informatique. Il peut donc s'agir en fait d'une régression quantile qui est le type de régression qui est effectuée en raison de sa simplicité de calcul (pas plus simple que les moindres carrés ordinaires, mais plus simple que les moindres carrés tronqués ).
Biais / impartial
Un autre problème est celui des estimateurs biaisés et non biaisés. Dans ce qui précède, j'ai décrit l'estimation du maximum de vraisemblance pour la moyenne, c'est-à-dire la solution des moindres carrés, comme un estimateur bon ou préférable car il présente souvent la variance la plus faible de tous les estimateurs sans biais (lorsque les erreurs sont distribuées normalement). Mais, les estimateurs biaisés peuvent être meilleurs (somme attendue inférieure de l'erreur quadratique).
Cela rend la question à nouveau large et complexe. Il existe de nombreux estimateurs différents et de nombreuses situations différentes pour les appliquer. L'utilisation d'une fonction de somme de perte de résidus au carré adaptée fonctionne souvent bien pour réduire l'erreur (par exemple toutes sortes de méthodes de régularisation), mais elle peut ne pas avoir besoin de bien fonctionner dans tous les cas. Intuitivement, il n'est pas étrange d'imaginer que, puisque la fonction de perte de la somme des résidus au carré fonctionne souvent bien pour tous les estimateurs sans biais, les estimateurs biaisés optimaux sont probablement quelque chose de proche d'une somme de la fonction de perte du résidu au carré.