Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.
Voici quelque chose que j'ai lu dans le livre Deep Learning d' Ian Goodfellow . Dans le contexte des réseaux de neurones, "la pénalité de la norme du paramètre L2 est communément appelée décroissance du poids. Cette stratégie de régularisation rapproche les poids de l'origine [...]. Plus généralement, nous pourrions …
En choisissant le paramètre de régularisation lambda dans Ridge ou Lasso, la méthode recommandée consiste à essayer différentes valeurs de lambda, à mesurer l'erreur dans l'ensemble de validation et enfin à choisir la valeur de lambda qui renvoie l'erreur la plus faible. Ce n'est pas pour moi si la fonction …
J'ai déjà une idée des avantages et des inconvénients de la régression des crêtes et du LASSO. Pour le LASSO, le terme de pénalité L1 donnera un vecteur de coefficient clairsemé, qui peut être considéré comme une méthode de sélection de caractéristiques. Cependant, il existe certaines limitations pour le LASSO. …
Je suis en train d' étudier LASSO (moins un retrait absolu et opérateur sélection) à l'intervalle. Je vois que la valeur optimale pour le paramètre de régularisation peut être choisie par validation croisée. Je vois aussi dans la régression de crête et de nombreuses méthodes qui appliquent la régularisation, nous …
Par techniques de régularisation, je fais référence au lasso, à la régression des crêtes, au filet élastique et similaires. Envisager un modèle prédictif sur les données de soins de santé contenant des données démographiques et diagnostiques où la durée du séjour pour les séjours en milieu hospitalier est prévue. Pour …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . Quelles implémentations open source - dans n'importe quel langage - existent là-bas qui peuvent …
Ma compréhension de la régression LASSO est que les coefficients de régression sont sélectionnés pour résoudre le problème de minimisation: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t En pratique, cela se fait en utilisant un multiplicateur de Lagrange, ce qui rend le problème à résoudre …
Dans plusieurs réponses, j'ai vu des utilisateurs de CrossValidated suggérer à OP de trouver les premiers articles sur Lasso, Ridge et Elastic Net. Pour la postérité, quelles sont les œuvres phares sur Lasso, Ridge et Elastic Net?
Si j'ai une matrice de conception , où est le nombre d'observations de dimension , quelle est la complexité de la résolution de avec LASSO, wrt et ? Je pense que la réponse devrait se référer à la façon dont une itération LASSO évolue avec ces paramètres, plutôt qu'à la …
J'ai récemment assisté à quelques discussions sur les statistiques du Lasso (régularisation) et un point qui revient sans cesse est que nous ne comprenons pas vraiment pourquoi le Lasso fonctionne ou pourquoi il fonctionne si bien. Je me demande à quoi se réfère cette déclaration. Évidemment, je comprends pourquoi le …
Comme l'indique le titre, j'essaie de reproduire les résultats de glmnet linear en utilisant l'optimiseur LBFGS de la bibliothèque lbfgs. Cet optimiseur nous permet d'ajouter un terme de régularisateur L1 sans avoir à se soucier de la différentiabilité, tant que notre fonction objectif (sans le terme de régularisateur L1) est …
Il est bien connu (par exemple dans le domaine de la détection compressive) que la norme "induit la rareté", en ce sens que si nous minimisons la fonction (pour la matrice fixe et le vecteur ) pour assez grand \ lambda> 0 , il est probable que de nombreux choix …
Il existe de nombreuses méthodes pour effectuer la régularisation - la régularisation basée sur la norme , et par exemple. Selon Friedman Hastie & Tibsharani , le meilleur régularisateur dépend du problème: à savoir la nature de la véritable fonction cible, la base particulière utilisée, le rapport signal / bruit …
Dans les notes de cours de la semaine 3 du cours Coursera Machine Learning d' Andrew Ng , un terme est ajouté à la fonction de coût pour implémenter la régularisation: J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Les notes de cours disent: Nous pourrions également régulariser tous nos paramètres …
J'utilise un RNN bidirectionnel pour détecter un événement d'occurrence déséquilibrée. La classe positive est 100 fois moins souvent que la classe négative. Sans utilisation de régularisation, je peux obtenir une précision de 100% sur le train et de 30% sur le jeu de validation. J'active la régularisation l2 et le …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.