Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.
Je voudrais obtenir les coefficients du problème LASSO ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Le problème est que les fonctions glmnet et lars donnent des réponses différentes. Pour la fonction glmnet, je demande les coefficients de λ/||Y||λ/||Y||\lambda/||Y||au lieu de simplement λλ\lambda , mais j'obtiens toujours des réponses différentes. Est-ce attendu? Quelle est la relation …
Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de milliers et p<20). Cependant, toute autre …
J'ai lu que le lasso de groupe est utilisé pour la sélection des variables et la rareté dans un groupe de variables. Je veux connaître l'intuition derrière cette affirmation. Pourquoi le lasso de groupe est-il préféré au lasso? Pourquoi le chemin de la solution de lasso de groupe n'est-il pas …
Je voudrais comparer des modèles sélectionnés avec faîtage, lasso et filet élastique. La figure ci-dessous montre les chemins des coefficients en utilisant les 3 méthodes: crête (figure A, alpha = 0), lasso (figure B; alpha = 1) et filet élastique (figure C; alpha = 0,5). La solution optimale dépend de …
J'entends ces mots de plus en plus alors que j'étudie l'apprentissage automatique. En fait, certaines personnes ont remporté la médaille Fields en travaillant sur les régularités des équations. Donc, je suppose que c'est un terme qui va de la physique statistique / mathématique à l'apprentissage automatique. Naturellement, un certain nombre …
Quelqu'un peut-il m'orienter vers un algorithme en ligne (récursif) pour la régularisation de Tikhonov (moindres carrés régularisés)? Dans un cadre hors ligne, je calculerais β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY utilisant mon ensemble de données d'origine où λλλ est trouvé en utilisant la validation croisée n fois. Une nouvelle valeur yyy peut être prédite pour …
Je voudrais poser cette question en deux parties. Les deux traitent d'un modèle linéaire généralisé, mais le premier traite de la sélection du modèle et les autres de la régularisation. Contexte: J'utilise des modèles GLM (linéaire, logistique, régression gamma) à la fois pour la prédiction et pour la description. Quand …
Existe-t-il de bons articles ou livres traitant de l'utilisation de la descente coordonnée pour L1 (lasso) et / ou de la régularisation nette élastique pour les problèmes de régression linéaire?
Dans la détection compressée, il existe un théorème garantissant que a une solution clairsemée unique c (voir l'annexe pour plus de détails).argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc Existe-t-il un théorème similaire pour le lasso? S'il existe un tel théorème, non seulement …
Je recherche de la documentation sur la régression de crête négative . En bref, il est une généralisation de la régression linéaire de la crête négative en utilisant λλ\lambda dans la formule β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Le cas positif a une belle théorie: en tant …
Voici un exemple de code keras qui l'utilise: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Pour éviter de sur-adapter les gens, les gens ajoutent un terme de régularisation (proportionnel à la somme au carré des paramètres du modèle) avec un paramètre de régularisation à la fonction de coût de la régression linéaire. Ce paramètre λ est-il le même qu'un multiplicateur de décalage? La régularisation est-elle …
Cet article suit celui-ci: pourquoi l'estimation des crêtes devient-elle meilleure que l'OLS en ajoutant une constante à la diagonale? Voici ma question: Pour autant que je sache, la régularisation des crêtes utilise une norme ℓ2ℓ2\ell_2 (distance euclidienne). Mais pourquoi utilisons-nous le carré de cette norme? (une application directe de ℓ2ℓ2\ell_2 …
J'ai vu beaucoup d'articles sur les représentations clairsemées récemment, et la plupart d'entre eux utilisent la norme et font une certaine minimisation. Ma question est, quelle est la norme et la norme mixte ? Et comment sont-ils pertinents pour la régularisation?ℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} Merci
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.