Supposons que je veuille estimer un grand nombre de paramètres et que je veuille pénaliser certains d'entre eux car je pense qu'ils devraient avoir peu d'effet par rapport aux autres. Comment décider quel schéma de pénalisation utiliser? Quand la régression de crête est-elle plus appropriée? Quand devrais-je utiliser le lasso?
Je lis les livres sur la régression linéaire. Il y a quelques phrases sur les normes L1 et L2. Je les connais, mais je ne comprends pas pourquoi la norme L1 pour les modèles clairsemés. Quelqu'un peut utiliser donner une explication simple?
Dans quelles circonstances faut-il envisager d'utiliser des méthodes de régularisation (régression de crête, de lasso ou de moindre angle) au lieu de MCO? Au cas où cela aiderait à orienter la discussion, mon intérêt principal est d'améliorer la précision prédictive.
Ridge estimation du coefficient de régression β R sont les valeurs qui minimisent leβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Mes questions sont: Si λ=0λ=0\lambda = 0 , on voit que l'expression ci-dessus se réduit au RSS habituel. Si λ→∞λ→∞\lambda \to \infty ? Je ne comprends pas l'explication du manuel du …
Considérons les trois phénomènes suivants. Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes …
La saison des vacances m'a donné l'occasion de m'installer près du feu avec Les éléments d'apprentissage statistique . Venant d’une perspective économétrique (fréquentiste), j’ai du mal à comprendre les utilisations de méthodes de réduction telles que la régression de crête, le lasso et la régression du moindre angle (LAR). En …
Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Cependant, je ne comprends pas tout à fait la signification du fait que …
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …
Considérons un bon vieux problème de régression avec prédicteurs et taille d’échantillon . La sagesse habituelle est que l’estimateur OLS va sur-adapter et sera généralement surperformé par l’estimateur de régression de crête:Il est standard d’utiliser la validation croisée pour trouver un paramètre de régularisation optimal . Ici, j'utilise un CV …
J'ai des problèmes avec la dérivation de la solution pour la régression de crête. Je connais la solution de régression sans le terme de régularisation: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienneλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …
À la page 223 de l' Introduction à l'apprentissage statistique , les auteurs résument les différences entre la régression de la crête et le lasso. Ils fournissent un exemple (Figure 6.9) du cas où "le lasso tend à surpasser la régression de la crête en termes de biais, de variance …
Je suis juste curieux de savoir pourquoi il n’ya habituellement que des régularisations des normes L1L1L_1 et L2L2L_2 . Y a-t-il des preuves de la raison pour laquelle elles sont meilleures?
Je souhaite utiliser la régression de Lasso ou de crête pour un modèle comportant plus de 50 000 variables. Je souhaite utiliser un logiciel en mode R. Comment puis-je estimer le paramètre de retrait ( λλ\lambda )? Modifications: Voici le point je me suis levé à: set.seed (123) Y <- …
Lorsque vous utilisez la validation croisée pour sélectionner des modèles (par exemple, un réglage hyperparamètre) et pour évaluer les performances du meilleur modèle, vous devez utiliser une validation croisée imbriquée . La boucle externe sert à évaluer les performances du modèle et la boucle interne à sélectionner le meilleur modèle. …
La régularisation par filet élastique est-elle toujours préférée à Lasso & Ridge, car elle semble résoudre les inconvénients de ces méthodes? Quelle est l'intuition et quel est le calcul derrière le filet élastique?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.