Après avoir simplifié le problème au moyen de procédures de routine, il peut être résolu en le convertissant en un programme de minimisation double qui a une réponse bien connue avec une preuve élémentaire. Cette dualisation est peut-être «l'étape subtile» mentionnée dans la question. L'inégalité peut également être établie de manière purement mécanique en maximisant |Ti| via les multiplicateurs de Lagrange.
Mais d'abord, je propose une solution plus élégante basée sur la géométrie des moindres carrés. Il ne nécessite aucune simplification préalable et est presque immédiat, fournissant une intuition directe dans le résultat. Comme suggéré dans la question, le problème se réduit à l'inégalité de Cauchy-Schwarz.
Solution géométrique
Considérons comme un vecteur à n dimensions dans l'espace euclidien avec le produit scalaire habituel. Soit y = ( 0 , 0 , … , 0 , 1 , 0 , … , 0 ) le i ème vecteur de base et 1 = ( 1 , 1 , … , 1 ) . Écrirex=(X1,X2,…,Xn)ny=(0,0,…,0,1,0,…,0)ith1=(1,1,…,1) etx^pour les projections orthogonales dexetydans le complément orthogonal de1. (Dansterminologie statistique, ce sont les résidus enqui concerne les moyens.) Alors, puisqueXi- ˉ X = x ⋅yetS=| | x | | /√y^xy1Xi−X¯=x^⋅y ,S= | | X^| | / n - 1-----√
| Tje| = n - 1-----√| X^⋅ y || | X^| |= n - 1-----√| X^⋅ y^|| | X^| |
est la composante de y dans la x direction. Par de Cauchy-Schwarz, il est maximisée exactement quandy^X^est parallèle à Y =(-1,-1,...,-1,n-1,-1,-1,...,-1)/n, pour lesquelsTi=±√X^y^= ( - 1 , - 1 , … , - 1 , n - 1 , - 1 , - 1 , … , - 1 ) / nQED.
Tje= ± n - 1-----√y^⋅ y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
Soit dit en passant, cette solution fournit une caractérisation exhaustive de tous les cas où est maximisé: ils sont tous de la forme|Ti|
x =σy^+ μ 1 = σ( - 1 , - 1 , … , - 1 , n - 1 , - 1 , - 1 , … , - 1 ) + μ ( 1 , 1 , … , 1 )
pour tout réel , σ .μ , σ
Cette analyse se généralise facilement au cas où est remplacé par n'importe quel ensemble de régresseurs. Évidemment, le maximum de T i est proportionnel à la longueur du résidu de y , | | y | | .{ 1 }Tjey| | y^| |
Simplification
Parce que est invariant sous les changements de localisation et d'échelle, nous pouvons supposer sans perte de généralité que la somme de X i à zéro et leurs carrés à n - 1 . Cela identifie | T i | avecTjeXjen - 1| Tje|, puisque S (le carré moyen) vaut 1 . La maximiser équivaut à la maximiser | T i | 2 = T 2 i = X 2 i . Aucune généralité n'est perdue en prenant| Xje|S1| Tje|2= T2je= X2je , soit, puisque les X i sont échangeables.i = 1Xje
Solution via une double formulation
Un double problème consiste à fixer la valeur de et à se demander quelles valeurs des X j , j ≠ 1 restantes sont nécessaires pour minimiser la somme des carrés ∑ n j = 1 X 2 j étant donné que ∑ n j = 1X21Xj, j ≠ 1∑nj = 1X2j . Parce que X 1 est donné, c'est le problème de minimiser ∑ n j = 2 X 2 j étant donné que ∑ n∑nj = 1Xj= 0X1∑nj = 2X2j.∑nj = 2Xj= - X1
La solution se trouve facilement à bien des égards. L'un des plus élémentaires est d'écrire
Xj= - X1n - 1+ εj, j = 2 , 3 , … , n
pour laquelle . Élargir la fonction objectif et utiliser cette identité somme-à-zéro pour la simplifier produit∑nj = 2εj= 0
∑j = 2nX2j= ∑j = 2n( - X1n - 1+ εj)2=∑ ( - X1n - 1)2- 2 X1n - 1∑ εj+ ∑ ε2j= Constante + ∑ ε2j,
montrant immédiatement la solution unique est pour tout j . Pour cette solution,εj= 0j
( n - 1 ) S2= X21+ ( n - 1 ) ( - X1n - 1)2= ( 1 + 1n - 1) X21= nn - 1X21
et
| Tje| = | X1|S= | X1|n( n - 1 )2X21-------√= n - 1n--√,
QED .
Solution via les machines
Revenons au programme simplifié avec lequel nous avons commencé:
Maximiser X21
sujet à
∑i = 1nXje= 0 et ∑i = 1nX2je- ( n - 1 ) = 0.
La méthode des multiplicateurs de Lagrange (qui est presque purement mécanique et simple) équivaut à une combinaison linéaire non triviale des gradients de ces trois fonctions à zéro:
( 0 , 0 , … , 0 ) = λ1D ( X21) + λ2D ( ∑i = 1nXje) + λ3D ( ∑i = 1nX2je−(n−1)).
Composante par composante, ces équations sontn
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
Les derniers - 1 d'entre eux impliquent soit X 2 = X 3 = ⋯ = X n = - λ 2 / ( 2 λ 3 ) ou λ 2 = λ 3 =n−1X2=X3=⋯=Xn=−λ2/(2λ3) . (Nous pouvons exclure ce dernier cas car alors la première équation implique λ 1 = 0 , banalisant la combinaison linéaire.) La contrainte de somme à zéro produit X 1 = - ( n - 1λ2=λ3=0λ1=0 . La contrainte de somme des carrés fournit les deux solutionsX1=−(n−1)X2
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Ils cèdent tous les deux
| Tje| = | X1| ≤ | ± n - 1n--√| = n - 1n--√.