La réponse à la fois à 1 et à 2 est non, mais il faut être prudent dans l'interprétation du théorème d'existence.
Variance de Ridge Estimator
Soit l'estimation de la crête sous la pénalité , et soit le véritable paramètre du modèle . Soit les valeurs propres de .
D'après les équations de Hoerl et Kennard 4.2-4.5, le risque (en termes de la norme attendue de l'erreur) est kβY=Xβ+ϵλ1,…,λpXTXL2β∗^kβY=Xβ+ϵλ1,…,λpXTX
L2
( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β ∗ -βγ2
E([β∗^−β]T[β∗^−β])=σ2∑j=1pλj/(λj+k)2+k2βT(XTX+kIp)−2β=γ1(k)+γ2(k)=R(k)
où pour autant que je sache, Ils remarquent que a l'interprétation de la variance du produit interne de , tandis que est le produit interne du biais.
(XTX+kIp)−2=(XTX+kIp)−1(XTX+kIp)−1.γ1β∗^−βγ2
Supposons que , puis
Soit
être la dérivée du risque w / r / t . Puisque , nous concluons qu'il existe des tels que . R ( k ) = p σ 2 + k 2 β T βXTX=IpR′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
R(k)=pσ2+k2βTβ(1+k)2.
klimk→0+R′(k)=-2pσ2<0k∗>0R(k∗)<R(0)R′(k)=2k(1+k)βTβ−(pσ2+k2βTβ)(1+k)3
klimk→0+R′(k)=−2pσ2<0k∗>0R(k∗)<R(0)
Les auteurs remarquent que l'orthogonalité est la meilleure que l'on puisse espérer en termes de risque à , et qu'à mesure que le nombre de conditions de augmente, approches .X T X lim k → 0 + R ′ ( k ) - ∞k=0XTXlimk→0+R′(k)−∞
Commentaire
Il semble y avoir un paradoxe ici, en ce que si et est constant, alors nous estimons simplement la moyenne d'une séquence de variables normales , et nous connaissons l'estimation sans biais de la vanille est recevable en l'espèce. Ceci est résolu en remarquant que le raisonnement ci-dessus prévoit simplement qu'une valeur minimisante de existe pour les fixes . Mais pour tout , nous pouvons faire exploser le risque en rendant grand, donc cet argument à lui seul ne montre pas l'admissibilité pour l'estimation de la crête.p=1X(β,σ2)kβTβkβTβ
Pourquoi la régression des crêtes n'est-elle généralement recommandée que dans le cas de prédicteurs corrélés?
La dérivation du risque de H&K montre que si nous pensons que est petit, et si le plan est presque singulier, alors nous pouvons réaliser de grandes réductions du risque de l'estimation. Je pense que la régression de crête n'est pas utilisée de manière omniprésente car l'estimation OLS est un défaut sûr et que les propriétés d'invariance et de non-biais sont attrayantes. Quand il échoue, il échoue honnêtement - votre matrice de covariance explose. Il y a aussi peut-être un point philosophique / inférentiel, que si votre conception est presque singulière et que vous avez des données d'observation, alors l'interprétation de comme donnant des changements dans pour les changements d'unité dans est suspecte - la grande matrice de covariance est un symptôme de cela. βTβXTXβEYX
Mais si votre objectif est uniquement la prédiction, les préoccupations inférentielles ne sont plus valables et vous avez un argument solide pour utiliser une sorte d'estimateur de rétrécissement.