Je suis un ingénieur en logiciel apprenant à apprendre les machines, en particulier grâce aux cours d'apprentissage automatique d' Andrew Ng . En étudiant la régression linéaire avec la régularisation , j'ai trouvé des termes déroutants: Régression avec régularisation L1 ou régularisation L2 LASSO Régression Ridge Donc mes questions: La …
Comment les méthodes de régularisation des arêtes, LASSO et des filets élastiques se comparent-elles? Quels sont leurs avantages et inconvénients respectifs? Tout bon document technique ou note de cours serait également apprécié.
La régularisation de Tikhonov et la régression de crête sont des termes souvent utilisés comme s'ils étaient identiques. Est-il possible de spécifier exactement quelle est la différence?
Remarque: Je sais que L1 a une propriété de sélection de fonction. J'essaie de comprendre lequel choisir lorsque la sélection des fonctionnalités est complètement hors de propos. Comment décider quelle régularisation (L1 ou L2) utiliser? Quels sont les avantages et les inconvénients de chacune des régularisations L1 / L2? Est-il …
J'utilise glmnet pour calculer les estimations de régression de crête. J'ai obtenu des résultats qui m'ont rendu suspect dans la mesure où glmnet fait vraiment ce que je pense qu'il fait. Pour vérifier cela, j'ai écrit un script R simple où je compare le résultat de la régression de crête …
J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) …
On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si …
Certaines fonctions de pénalité et approximations sont bien étudiées, comme le LASSO ( L1L1L_1 ) et le Ridge ( L2L2L_2 ) et comment elles se comparent en régression. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] a comparé la pénalité Bridge quand γ≥1γ≥1\gamma \geq 1 au LASSO, mais …
Considérons la régression de crête avec une contrainte supplémentaire exigeant que ait une somme unitaire de carrés (de manière équivalente, la variance unitaire); si nécessaire, on peut supposer que a également une somme unitaire de carrés: yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf …
Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser. Le …
Pour un modèle linéaire , le terme de retrait est toujours .y=β0+xβ+εy=β0+Xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de neurones?β0β0\beta_0
Considérons le modèle standard de régression multiple où , donc la normalité, l'homoscédasticité et la non corrélation des erreurs sont toutes valables.Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supposons que nous effectuons une régression de crête, en ajoutant la même petite quantité à tous les éléments de la diagonale de :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y …
J'ai compris comment la régression de crête rétrécit géométriquement les coefficients vers zéro. De plus, je sais comment le prouver dans le cas spécial "Orthonormal Case", mais je ne sais pas comment cela fonctionne dans le cas général via la "décomposition spectrale".
J'utilise le package R pénalisé pour obtenir des estimations réduites des coefficients pour un ensemble de données où j'ai beaucoup de prédicteurs et peu de connaissances sur ceux qui sont importants. Après avoir choisi les paramètres de réglage L1 et L2 et que je suis satisfait de mes coefficients, existe-t-il …
Je me souviens avoir lu quelque part sur le Web une connexion entre la régression de crête (avec la régularisation ) et la régression PCA: lors de l'utilisation de la régression régularisée avec un hyperparamètre , si , la régression équivaut à supprimer le Variable PC avec la plus petite …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.