Réponses:
Cette question est assez ancienne mais j'ai en fait une réponse qui n'apparaît pas ici, et qui donne une raison convaincante pour laquelle (sous certaines hypothèses raisonnables) l'erreur quadratique est correcte, tandis que tout autre pouvoir est incorrect.
Disons que nous avons certaines données et veulent trouver la fonction linéaire (ou autre) f qui prédit le mieux les données, en ce sens que la densité de probabilité p f ( D ) pour l'observation de ces données doit être maximale par rapport à f (cela s'appelle leestimation du maximum de vraisemblance ). Si nous supposons que les données sont données par plus un terme d'erreur normalement distribué avec l'écart-type σ , alors p f ( D ) = n ∏ i = 1 1 Cela équivaut à 1
Il n'y a aucune raison que vous ne puissiez pas essayer de minimiser les normes autres que x ^ 2, il y a eu des livres entiers écrits sur la régression quantile, par exemple, qui est plus ou moins minimisant | x | si vous travaillez avec la médiane. C'est généralement plus difficile à faire et, selon le modèle d'erreur, peut ne pas donner de bons estimateurs (selon que cela signifie des estimateurs à faible variance ou sans biais ou à faible MSE dans le contexte).
Quant à savoir pourquoi nous préférons les moments entiers aux moments de valeur réelle, la principale raison est probable que si les puissances entières de nombres réels donnent toujours des nombres réels, les puissances non entières de nombres réels négatifs créent des nombres complexes, nécessitant ainsi l'utilisation de une valeur absolue. En d'autres termes, alors que le 3ème moment d'une variable aléatoire à valeur réelle est réel, le 3,2ème moment n'est pas nécessairement réel, et donc pose des problèmes d'interprétation.
Autre que ça...
Nous essayons de minimiser la variance qui reste dans les descripteurs. Pourquoi la variance? Lisez cette question ; cela vient également avec l'hypothèse (généralement silencieuse) que les erreurs sont normalement distribuées.
Extension:
deux arguments supplémentaires:
Pour les variances, nous avons cette belle "loi" selon laquelle la somme des variances est égale à la variance de la somme, pour les échantillons non corrélés. Si nous supposons que l'erreur n'est pas corrélée avec le cas, la minimisation du résidu des carrés fonctionnera directement pour maximiser la variance expliquée, ce qui est peut-être une mesure de qualité pas si bonne mais toujours populaire.
Si nous supposons la normalité d'une erreur, l'estimateur d'erreur des moindres carrés est une vraisemblance maximale.
Dans les moindres carrés ordinaires, la solution de (A'A) ^ (- 1) x = A'b minimise la perte d'erreur au carré, et est la solution du maximum de vraisemblance.
Donc, en grande partie parce que les calculs étaient faciles dans ce cas historique.
Mais généralement, les gens minimisent de nombreuses fonctions de perte différentes , telles que exponentielle, logistique, cauchy, laplace, huber, etc. Ces fonctions de perte plus exotiques nécessitent généralement beaucoup de ressources de calcul et n'ont pas de solutions sous forme fermée (en général), donc ils commencent seulement à devenir plus populaires maintenant.
Je crois comprendre que parce que nous essayons de minimiser les erreurs, nous devons trouver un moyen de ne pas nous mettre dans une situation où la somme de la différence négative d'erreurs est égale à la somme de la différence positive d'erreurs mais nous ne l'avons pas trouvé un bon ajustement. Nous faisons cela en mettant au carré la somme de la différence d'erreurs, ce qui signifie que la différence négative et positive d'erreurs devient positive (). Si nous avons soulevé à la puissance de tout autre chose qu'un entier positif, nous ne réglerions pas ce problème parce que les erreurs n'auraient pas le même signe, ou si nous élevions à la puissance de quelque chose qui n'est pas un entier, nous entrerions dans les domaines du complexe Nombres.