Pourquoi appelons-nous les équations d'estimation des moindres carrés en régression linéaire les * équations normales *?

Lorsque nous voulons estimer des paramètres de régression linéaire, nous faisons des équations normales autant que le modèle linéaire contient un nombre d'inconnues. Pourquoi ces équations sont-elles appelées équations normales?

— Rashid Munir
source

Pourquoi voter contre cela? C'est mieux que quelqu'un qui affiche ses devoirs ou son problème de test.

— Mark L. Stone

Je vais donner ce qui est peut-être la compréhension la plus courante, puis quelques détails supplémentaires.

Normal est un terme en géométrie (Wikipedia):

En géométrie, une normale est un objet tel qu'une ligne ou un vecteur perpendiculaire à un objet donné.

qui à son tour semble provenir d'un terme pour un carré de charpentier ou de maçon [1]

NORM et NORMAL. Selon l'OED, en latin norma pourrait signifier un carré utilisé par les charpentiers, les maçons, etc., pour obtenir des angles droits, un angle droit ou une norme ou un modèle de pratique ou de comportement. Ces significations se reflètent dans les termes mathématiques basés sur la norme et la normale.

et de la géométrie le terme se déplace dans les espaces vectoriels.

La réponse directe pour les «équations normales» est donnée ici: http://mathworld.wolfram.com/NormalEquation.html

On l'appelle une équation normale car $b-Ax$ est normal à la plage de $A$ .

(Dans la notation de régression habituelle, c'est ' $y-Xb$ est normal à la plage de $X$ ')

Littéralement, le moindre carré résiduel est perpendiculaire (à angle droit) à l'espace couvert par $X$ .

le $y$ -vecteur réside dans $n$ dimensions. Les portées de la matrice X $p$ de ceux (ou $p+1$ selon la façon dont votre notation est configurée; si $X$ est de rang complet, c'est le nombre de colonnes de X). La solution des moindres carrés $X\hat{\beta}$ est le point le plus proche de cet espace $X$ pour que $y$ -vecteur (en effet, littéralement la projection de $y$ sur l'espace enjambé par $X$ ). Il est nécessairement vrai qu'en minimisant la somme des carrés, la différence $y-X\hat{\beta}$ est orthogonale à l'espace couvert par $X$ . (Sinon, il y aurait une solution encore plus petite.)

Cependant, comme le suggère Whuber dans les commentaires, ce n'est pas aussi clair.

En regardant à nouveau [1]:

Le terme ÉQUATION NORMALE en moindres carrés a été introduit par Gauss en 1822 [James A. Landau]. La «Terminologie normative» de Kruskal et Stigler (dans Stigler (1999)) examine diverses hypothèses sur l'origine du terme mais n'en trouve pas très satisfaisantes.

Cependant, la méthode des équations normales est souvent attribuée à Legendre, 1805.

[1] Miller, J. (ed) "Premiers usages connus de certains mots de mathématiques, N" dans Premiers usages connus de certains mots de mathématiques

— Glen_b -Reinstate Monica
source

J'ai toujours supposé que c'était la raison, mais il y a aussi d'autres raisons plausibles. Le site Wolfram ne fournit aucune référence pour son affirmation. Connaissez-vous une documentation historique sur l'origine de ce terme?

— whuber

Hmm. Tu pourrais avoir raison. Je ferai quelques modifications avec des informations supplémentaires

— Glen_b -Reinstate Monica