Questions marquées «ridge-regression»

Une méthode de régularisation pour les modèles de régression qui réduit les coefficients vers zéro.

3
Quand devrais-je utiliser le lasso vs la crête?
Supposons que je veuille estimer un grand nombre de paramètres et que je veuille pénaliser certains d'entre eux car je pense qu'ils devraient avoir peu d'effet par rapport aux autres. Comment décider quel schéma de pénalisation utiliser? Quand la régression de crête est-elle plus appropriée? Quand devrais-je utiliser le lasso?



2
Pourquoi la régression de crête est-elle appelée «crête», pourquoi est-elle nécessaire et que se passe-t-il lorsque
Ridge estimation du coefficient de régression β R sont les valeurs qui minimisent leβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Mes questions sont: Si λ=0λ=0\lambda = 0 , on voit que l'expression ci-dessus se réduit au RSS habituel. Si λ→∞λ→∞\lambda \to \infty ? Je ne comprends pas l'explication du manuel du …

5
Vue unifiée sur le retrait: quelle est la relation (le cas échéant) entre le paradoxe de Stein, la régression de la crête et les effets aléatoires dans des modèles mixtes?
Considérons les trois phénomènes suivants. Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes …


3
Pourquoi l’estimation de la crête devient-elle meilleure que celle des MCO en ajoutant une constante à la diagonale?
Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Cependant, je ne comprends pas tout à fait la signification du fait que …

2
Pourquoi le retrait fonctionne-t-il?
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …

6
Est une régression de crête inutile dans les dimensions élevées (
Considérons un bon vieux problème de régression avec prédicteurs et taille d’échantillon . La sagesse habituelle est que l’estimateur OLS va sur-adapter et sera généralement surperformé par l’estimateur de régression de crête:Il est standard d’utiliser la validation croisée pour trouver un paramètre de régularisation optimal . Ici, j'utilise un CV …

5
Comment dériver la solution de régression de crête?
J'ai des problèmes avec la dérivation de la solution pour la régression de crête. Je connais la solution de régression sans le terme de régularisation: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienneλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …




1
Quand la validation croisée imbriquée est-elle vraiment nécessaire et peut-elle faire la différence?
Lorsque vous utilisez la validation croisée pour sélectionner des modèles (par exemple, un réglage hyperparamètre) et pour évaluer les performances du meilleur modèle, vous devez utiliser une validation croisée imbriquée . La boucle externe sert à évaluer les performances du modèle et la boucle interne à sélectionner le meilleur modèle. …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.