Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.
Considérons la régression de crête avec une contrainte supplémentaire exigeant que ait une somme unitaire de carrés (de manière équivalente, la variance unitaire); si nécessaire, on peut supposer que a également une somme unitaire de carrés: yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf …
Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser. Le …
J'ai compris comment la régression de crête rétrécit géométriquement les coefficients vers zéro. De plus, je sais comment le prouver dans le cas spécial "Orthonormal Case", mais je ne sais pas comment cela fonctionne dans le cas général via la "décomposition spectrale".
J'ai une question concernant la nécessité d'utiliser des méthodes de sélection d'entités (forêts aléatoires, valeur d'importance des caractéristiques ou méthodes de sélection d'entités univariées, etc.) avant d'exécuter un algorithme d'apprentissage statistique. Nous savons que pour éviter le sur-ajustement, nous pouvons introduire une pénalité de régularisation sur les vecteurs de poids. …
J'utilise libsvm en mode C-SVC avec un noyau polynomial de degré 2 et je dois former plusieurs SVM. Chaque ensemble d'entraînement a 10 fonctionnalités et 5000 vecteurs. Pendant la formation, je reçois cet avertissement pour la plupart des SVM que je forme: WARNING: reaching max number of iterations optimization finished, …
La régularisation en régression (linéaire, logistique ...) est le moyen le plus utilisé pour réduire le sur-ajustement. Lorsque l'objectif est la précision des prédictions (sans explication), existe-t-il de bonnes alternatives à la régularisation, particulièrement adaptées aux ensembles de données volumineuses (mi / milliards d'observations et millions de fonctionnalités)?
La régularisation peut-elle être utile si nous nous intéressons uniquement à l'estimation (et à l'interprétation) des paramètres du modèle, pas à la prévision ou à la prédiction? Je vois à quel point la régularisation / validation croisée est extrêmement utile si votre objectif est de faire de bonnes prévisions sur …
Je me souviens avoir lu quelque part sur le Web une connexion entre la régression de crête (avec la régularisation ) et la régression PCA: lors de l'utilisation de la régression régularisée avec un hyperparamètre , si , la régression équivaut à supprimer le Variable PC avec la plus petite …
Il est bien connu que la régression linéaire avec une pénalité de équivaut à trouver l'estimation MAP donnée un a priori gaussien sur les coefficients. De même, l'utilisation d'une pénalité équivaut à l'utilisation d'une distribution de Laplace comme a priori.l2l2l^2l1l1l^1 Il n'est pas rare d'utiliser une combinaison pondérée de régularisation …
Dans le livre de Bishop "Pattern Classification and Machine Learning", il décrit une technique de régularisation dans le contexte des réseaux de neurones. Cependant, je ne comprends pas un paragraphe décrivant que pendant le processus de formation, le nombre de degrés de liberté augmente avec la complexité du modèle. La …
Robby McKilliam dit dans un commentaire à ce post: Il convient de souligner que, du point de vue des fréquentistes, il n'y a aucune raison pour que vous ne puissiez pas intégrer les connaissances antérieures dans le modèle. En ce sens, la vue fréquentiste est plus simple, vous n'avez qu'un …
J'ai un ensemble de 150 fonctionnalités, et beaucoup d'entre elles sont fortement corrélées les unes aux autres. Mon objectif est de prédire la valeur d'une variable discrète, dont la plage est 1-8 . La taille de mon échantillon est de 550 et j'utilise une validation croisée 10 fois . AFAIK, …
Si nous commençons avec un ensemble de données , y appliquons Lasso et obtenons une solution , nous pouvons appliquer à nouveau Lasso à l'ensemble de données , où S est l'ensemble des non index zéro de \ beta ^ L , pour obtenir une solution, \ beta ^ {RL} …
En régression lasso ou crête, il faut spécifier un paramètre de rétrécissement, souvent appelé par ou α . Cette valeur est souvent choisie par validation croisée en vérifiant un tas de valeurs différentes sur les données d'entraînement et en voyant celle qui donne le meilleur, par exemple R 2 sur …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.