Les éléments de l'apprentissage statistique par Hastie et al. souligne dans P63 que:
L'interception θ0 a été exclu de la peine
De plus, il dit:
Les solutions de faîtage ne sont pas équivariantes sous l'échelle des entrées, et donc on normalise normalement les entrées avant de résoudre (3.41) (3.41 est la fonction de coût). On peut montrer (Exercice 3.5) que la solution de (3.41) peut être séparée en deux parties, après reparamétrisation à l'aide d'entrées centrées: chacuneX(i)j est remplacé par
X(i)j−xj¯¯¯¯¯. Nous estimons θ0 par
y¯¯¯=1m∑mi=1y(i) Les coefficients restants sont estimés par une régression de crête sans interception, en utilisant le centré X(i)j. Nous supposons désormais que ce centrage a été effectué, de sorte que la matrice d'entréeX a n (plutôt que n+1) Colonnes.
Bien que je me demande pourquoi The Elements of Statistical Learning suggère d'abord la standardisation des fonctionnalités et que seul le centrage des fonctionnalités est effectué. Peut-être d'accord avec l'exercice 3.5 qui utilise uniquement le centrage des fonctionnalités.
Quoi qu'il en soit, je pense qu'il est juste d'appliquer la standardisation z-score aux fonctionnalités. J'essaie donc maintenant de résoudre la dérivée de la fonction de coût de la régression de crête en suivant la suggestion de l'amibe commentateur ci-dessus. Merci beaucoup à lui!
Tout d'abord, la fonction de coût:
∇θJ(θ)=12∑i=1m(yi−θ0−X(i)1−X1¯¯¯¯¯¯σ1θ1−X(i)2−X2¯¯¯¯¯¯σ2θ2−...−X(i)n−Xn¯¯¯¯¯¯¯σnθn)2+λ∑j=1nθ2j,
où
Xj¯¯¯¯¯¯ est la moyenne de l'attribut
Xj et
σj est l'écart type de
Xj. Pour le raccourcir:
∇θJ(θ)=12∑i=1m(yi−θ0−∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj)2+λ∑j=1nθ2j
Maintenant, nous calculons d'abord la valeur de
θ0 dans l'expression ci-dessus en définissant la dérivée par rapport à
θ0égal à zéro. Depuis
λ∑nj=1θ2j n'a pas
θ0, on a:
∇θ0J(θ)=−∑i=1m(yi−θ0−∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj)=0
C'est:
∑i=1m(yi−θ0)−∑i=1m∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj=0
Comme
∑i=1m∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj=0
(parce que
Xj¯¯¯¯¯¯ est la moyenne de l'attribut
Xj ), nous avons donc maintenant
∑i=1m(yi−θ0)=0,
évidemment:
θ0=y¯¯¯=1m∑i=1my(i)
Ainsi, l'ordonnée à l'origine de la régression de crête normalisée est toujours y¯¯¯. Par conséquent, si nous centralisons d'abordY en soustrayant sa moyenne (obtenir (yi)′ pour l'exemple de données i), ne pas inclure toutes les 1 colonne dans X, puis effectuez la normalisation sur X (avoir (X(i)j)′ pour Xj d'exemple de données i) , la fonction de coût sera simplement
∇θJ(θ)=12∑i=1m((yi)′−∑j=1n(X(i)j)′θj)2+λ∑j=1nθ2j
C'est
∇θJ(θ)=12(X′θ−Y′)T(X′θ−Y′)+λ(θ)Tθ,
où
θ=⎡⎣⎢⎢⎢θ1θ2...θn⎤⎦⎥⎥⎥,
X′ n'a pas toutes 1 colonne et normalisé de
X,
Y′ est centré par rapport à
Y. Maintenant
θ (sans pour autant
θ0) peut être résolu avec:
θ=((X′)TX′+λ∗I)−1(X′)TY′
Pour les entités normalisées, le modèle linéaire sera
y=y¯¯¯+θ1X′1+θ2X′2+...+θnX′n−−−(1),
où
X′i=Xi−Xi¯¯¯¯¯¯σi−−−(2)
Si nous utilisons (2) dans (1) comme suggéré dans la réponse de
Plasty Grove . Ainsi, pour les données d'entrée d'origine, le modèle linéaire sera
y=y¯¯¯+X1−X1¯¯¯¯¯¯σ1θ1+X2−X2¯¯¯¯¯¯σ2θ2+...+Xn−Xn¯¯¯¯¯¯¯σnθn
C'est
y=θ1σ1X1+θ2σ2X2+...+θnσnXn+y¯¯¯−X1¯¯¯¯¯¯σ1θ1−X2¯¯¯¯¯¯σ2θ2−...−Xn¯¯¯¯¯¯¯σnθn
C'est pourquoi après avoir résolu des coefficients d'entités normalisées, pour renvoyer des données d'entrée de coefficients d'origine (entités non normalisées), nous devons retourner
θi/σi