La question est très simple: pourquoi, lorsque nous essayons d'adapter un modèle à nos données, linéaires ou non linéaires, essayons-nous généralement de minimiser la somme des carrés d'erreurs pour obtenir notre estimateur pour le paramètre du modèle? Pourquoi ne pas choisir une autre fonction objective à minimiser? Je comprends que, pour des raisons techniques, la fonction quadratique est plus agréable que certaines autres fonctions, par exemple la somme de l'écart absolu. Mais ce n'est toujours pas une réponse très convaincante. Outre cette raison technique, pourquoi en particulier les gens sont-ils en faveur de ce «type euclidien» de fonction de distance? Y a-t-il un sens ou une interprétation spécifique à cela?
La logique derrière ma pensée est la suivante:
Lorsque vous avez un ensemble de données, vous configurez d'abord votre modèle en faisant un ensemble d'hypothèses fonctionnelles ou distributionnelles (par exemple, une condition de moment mais pas la distribution entière). Dans votre modèle, il y a certains paramètres (supposons qu'il s'agit d'un modèle paramétrique), alors vous devez trouver un moyen d'estimer de manière cohérente ces paramètres et, espérons-le, votre estimateur aura une faible variance et d'autres propriétés intéressantes. Que vous minimisiez l'ESS ou le LAD ou une autre fonction objective, je pense que ce ne sont que des méthodes différentes pour obtenir un estimateur cohérent. Suivant cette logique, je pensais que les gens utilisent le moins carré doit être 1) il produit un estimateur cohérent du modèle 2) quelque chose d'autre que je ne sais pas.
En économétrie, nous savons que dans le modèle de régression linéaire, si vous supposez que les termes d'erreur ont un conditionnement moyen sur les prédicteurs et que l'homoscédasticité et les erreurs ne sont pas corrélées les unes avec les autres, minimiser la somme des erreurs carrées vous donnera un estimateur COHÉRENT de votre modèle. paramètres et par le théorème de Gauss-Markov, cet estimateur est BLEU. Cela suggère donc que si vous choisissez de minimiser une autre fonction objective qui n'est pas l'ESS, rien ne garantit que vous obtiendrez un estimateur cohérent de votre paramètre de modèle. Ma compréhension est-elle correcte? Si elle est correcte, la minimisation de l'ESS plutôt que d'une autre fonction objective peut être justifiée par la cohérence, ce qui est acceptable, en fait, mieux que de dire que la fonction quadratique est plus agréable.
En pratique, j'ai vu de nombreux cas où les gens minimisent directement la somme des erreurs carrées sans spécifier clairement le modèle complet, par exemple, les hypothèses de distribution (hypothèses de moment) sur le terme d'erreur. Ensuite, il me semble que l'utilisateur de cette méthode veut juste voir à quel point les données correspondent au `` modèle '' (j'utilise un guillemet car les hypothèses du modèle sont probablement incomplètes) en termes de fonction de distance carrée.
Une question connexe (également liée à ce site Web) est: pourquoi, lorsque nous essayons de comparer différents modèles à l'aide de la validation croisée, utilisons-nous à nouveau l'ESS comme critère de jugement? c'est-à-dire, choisir le modèle qui a le moins d'ESS? Pourquoi pas un autre critère?