Montrant que l'estimateur OLS est équivariant à l'échelle?


11

Je n'ai pas de définition formelle de l'équivariance d'échelle, mais voici ce que l' introduction à l'apprentissage statistique dit à ce sujet à la p. 217:

Les coefficients standard des moindres carrés ... sont équivariants à l'échelle : la multiplication de par une constante conduit simplement à une mise à l'échelle des estimations des coefficients des moindres carrés d'un facteur . c 1 / cXjc1/c

Pour simplifier, supposons le modèle linéaire général y=Xβ+ϵ , où yRN , X est une matrice N×(p+1) (où p+1<N ) avec toutes les entrées dans R , βRp+1 , et ϵ est un vecteur à N dimensions de variables aléatoires à valeur réelle avec E[ϵ]=0N×1 .

D'après l'estimation OLS, nous savons que si X a un rang (colonne) complet,

β^X=(XTX)1XTy.
Supposons que nous multiplions une colonne de X , disons xk pour certains k{1,2,,p+1} , par une constante c0 . Ce serait équivalent à la matrice
X[111c11]S=[x1x2cxkxp+1]X~
où toutes les autres entrées de la matrice S ci-dessus sont 0 , et c est dans la k ème entrée de la diagonale de S . Puis,X~X~car la nouvelle matrice de conception est
β^X~=(X~TX~)1X~Ty.
Après quelques travaux, on peut montrer que
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} et
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Comment puis-je aller d'ici pour montrer la revendication citée ci-dessus (c'est-à-dire que β^X~=1cβ^X )? Je ne sais pas comment calculer (X~TX~)1 .

Je pense que votre n'est pas correct, il manque un multiplicateur sur toute une ligne. cX~TX~c
Firebug

1
Gardez également à l'esprit que la revendication est , pas tous . β^k,new=1cβ^k,oldβ
Firebug

@ Firebug Yep, je viens de comprendre cela. Je poste une réponse.
Clarinettiste

2
Vous pouvez remplacer toute cette algèbre par une analyse des unités beaucoup plus simple, car multiplier par change simplement son unité de mesure, et donc le changement correspondant dans les unités associées à son coefficient est de le diviser par . Cela ne prouve pas que doit être divisé par , malheureusement. Cependant, cette chaîne de pensée pourrait nous rappeler qu'une régression multiple peut être effectuée par une succession de régressions contre un régresseur à la fois, où il est clair que est divisé par , et donc la preuve est complète. Xjcβjcβ^jcβ^jc
blanc

@whuber, alors que l'intuition du résultat est claire, il semble qu'il doit simplement y avoir un peu d'algèbre pour fournir une preuve. Après tout, le facteur d'échelle doit être inversé. c
user795305

Réponses:


11

Étant donné que l'assertion dans la citation est une collection d'instructions sur le redimensionnement des colonnes de , vous pouvez tout aussi bien les prouver en même temps. En effet, il ne faut plus de travail pour prouver une généralisation de l'assertion:X

Lorsque est multiplié à droite par une matrice inversible , alors la nouvelle estimation de coefficient est égale à multipliée à gauche par .XAβ^Aβ^A1

Les seuls faits algébriques dont vous avez besoin sont ceux (facilement prouvés et bien connus) que pour toutes les matrices et pour les matrices inversibles et . (Une version plus subtile de ce dernier est nécessaire lorsque vous travaillez avec des inverses généralisés: pour et inversible et tout , . )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Preuve par algèbre :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (Pour que cette preuve soit entièrement générale, le exposant se réfère à un inverse généralisé.)


Preuve par géométrie :

Étant donné les bases et de et , respectivement, représente une transformation linéaire de à . La multiplication à droite de par peut être considérée comme laissant cette transformation fixe mais en changeant en (c'est-à-dire dans les colonnes de ). Sous ce changement de base, la représentation de tout vecteur doit changer via la multiplication à gauche par ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED .

(Cette preuve fonctionne, non modifiée, même lorsque n'est pas inversible.)XX


La citation se réfère spécifiquement au cas des matrices diagonales avec pour et .AAii=1ijAjj=c


Connexion avec les moindres carrés

L'objectif est ici d'utiliser les premiers principes pour obtenir le résultat, le principe étant celui des moindres carrés: estimer les coefficients qui minimisent la somme des carrés des résidus.

Encore une fois, prouver une (énorme) généralisation ne se révèle pas plus difficile et est plutôt révélateur. Supposons est une carte (linéaire ou non) d'espaces vectoriels réels et supposons que est une fonction à valeur réelle sur . Soit l'ensemble (éventuellement vide) de points pour lequel est minimisé.

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Résultat: , qui est déterminé uniquement par et , ne dépend d'aucun choix de base utilisée pour représenter les vecteurs dans .UQϕEpVp

Preuve: QED.

Il n'y a rien à prouver!

Application du résultat: Soit une forme quadratique semi-définie positive sur , soit , et supposons que est une carte linéaire représentée par lorsque les bases de et sont choisis. Définissez . Choisissez une base de et supposez que est la représentation de certains dans cette base. Il s'agit des moindres carrés : minimise la distance au carré . Parce queFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xest une carte linéaire, en changeant la base de correspond au droit multipliant par une matrice inversible . Cela multipliera à gauche par , QED .RpXAβ^A1


6

Définissez l'estimateur des moindres carrés , où la matrice de conception est le rang complet. En supposant que la matrice de mise à l'échelle est inversible.β^=argminβRpyXβ22XRn×pSRp×p

Définissez ce nouvel estimateur à l'échelle . Cela signifie que pour tous . En définissant , nous pouvons réécrire cette inégalité affichée ci-dessus comme pour tous . Par conséquent , et il s'ensuit que l'estimateur des moindres carrés En raison de l'inversibilité de la matrice de mise à l'échelleα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, il s'ensuit que . Dans notre cas, cela ne diffère de par l' entrée mise à l'échelle par .α~=S1β^β^kth1c

1
Je ne suis pas familier car je devrais travailler avec et des fonctions similaires - pourriez-vous expliquer la transition de votre deuxième à la troisième ligne d'équations? arg min
Clarinettiste

Je l'ai écrit un peu différemment, ce qui devrait rendre les étapes plus claires.
user795305

C'est vraiment intelligent. (+1)
Clarinettiste

4

J'ai compris cela après avoir posté la question. Si mon travail est correct, cependant, j'ai mal interprété la demande. La mise à l'échelle se produit uniquement sur la seule composante de correspondant à la colonne de multipliée par .1cβXc

Notez que , dans la notation ci-dessus, est une matrice diagonale symétrique et a une inverse (car elle est diagonale) Notez que est une matrice . Supposons que S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Par conséquent, et en le multipliant par a un effet similaire à ce que la multiplication de par fait - il reste le même, est multiplié par
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Par conséquent,
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
comme vous le souhaitez.

Il y a une faute de frappe dans . Vous devez transposer . S1(XTX)1S1(XS)y(XS)
JohnK

3

La preuve la plus triviale de tous les temps

Vous commencez avec votre équation linéaire: Maintenant, vous voulez changer l'échelle de vos régresseurs, peut-être convertir du système métrique en Impérial, vous connaissez les kilogrammes en livres, les mètres en verges, etc. avec la matrice de conversion où chaque est le coefficient de conversion de variable (colonne) dans la matrice de conception .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Réécrivons l'équation:

Y=(XS)(S1β)+ε

Il est maintenant parfaitement clair que la mise à l'échelle est la propriété de la linéarité de votre équation, et non la méthode OLS d'estimation des coefficients. Quelle que soit la méthode d'estimation avec équation linéaire, vous avez que lorsque les régresseurs sont mis à l'échelle comme vos nouveaux coefficients doivent être mis à l'échelle commeXSS1β

Preuve par l'algèbre pour OLS uniquement

La mise à l' échelle est la suivante: où facteur d'échelle de chaque variable (colonne) et une version réduite de . Appelons la matrice d'échelle diagonale . Votre estimateur OLS est Branchez la matrice mise à l'échelle au lieu de et utilisons une algèbre matricielle : Donc, vous voyez comment le nouveau coefficient est simplement l'ancien coefficient réduit, comme prévu.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
J'aime vos approches, mais je ne suis pas convaincu par "la preuve la plus triviale jamais réalisée". Vous avez implicitement supposé, et devez encore montrer, que le modèle réécrit doit avoir le même ajustement que l'original. Pour le dire plus rigoureusement: si nous considérons une procédure d'ajustement comme une fonction , où est l'ensemble de toutes les données possibles (que nous pourrions écrire comme la paire ordonnée ) et est l'ensemble de toutes les estimations de coefficient possibles, alors vous devez démontrer que pour tous les inversible , tout et tout . (Ce n'est pas toujours vrai!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
Whuber

@whuber, en fait c'est l'inverse: la procédure d'ajustement raisonnable doit satisfaire à cette condition, sinon un simple changement d'unité de mesure produira une prévision / estimation différente. je mettrai à jour ma réponse, j'y réfléchirai un peu
Aksakal

Je suis d'accord - mais je peux imaginer des exceptions dans les cas où n'est pas de plein rang. C'est ce qui m'a suggéré que la situation n'est pas aussi triviale qu'elle pourrait sembler l'être. X
whuber

3
compagnon impérial , pas royal ...: D (Nice answer, +1)
usεr11852

@ usεr11852, j'ai appris quelque chose aujourd'hui :)
Aksakal

2

Un moyen facile d'obtenir ce résultat est de se rappeler que est la projection de sur l'espace de colonne de est le vecteur de coefficients lorsque est exprimé comme linéaire combinaison des colonnes de . Si une colonne est mise à l'échelle par un facteur , il est clair que le coefficient correspondant dans la combinaison linéaire doit être mis à l'échelle par .y^yX. β^y^c 1 / cXc1/c

Soit les valeurs de et les valeurs de la solution OLS lorsqu'une colonne est mise à l'échelle parβ a i c . b 1 x 1 + . . . + b i x i + . . . + b m x m = a 1 x 1 + . . . a i ( c x i ) + . . . + a n x nbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

implique que où et , en supposant que les colonnes de sont linéairement indépendantes. j i b i = a i c Xbj=ajjibi=aicX

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.