Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
Lorsque je présente des concepts à mes élèves, je trouve souvent amusant de leur dire d'où vient la terminologie («régression», par exemple, est un terme avec une origine intéressante). Je n'ai pas pu retracer l'historique / le contexte du terme "régularisation" en statistique / apprentissage automatique. Alors, quelle est l'origine …
J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de Laplace).BBBBBBBiBiB_i J'ai essayé de le …
J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la régularisation. L'objectif de la régularisation …
J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y a-t-il un …
Pour la régression Lasso supposons que la meilleure solution (erreur de test minimale par exemple) sélectionne k fonctionnalités, de sorte que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k …
Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de …
Supposons que j'ai un ensemble de données pour une tâche de classification statistique supervisée, par exemple via un classifieur Bayes. Cet ensemble de données se compose de 20 entités et je veux le résumer à 2 entités via des techniques de réduction de dimensionnalité telles que l'analyse en composantes principales …
J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) …
On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si …
Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée. Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se, quelle est la valeur de lambda qui minimise l'erreur …
Je regardais à travers la littérature sur la régularisation, et je vois souvent des paragraphes qui relient la régulation de L2 à Gaussian prior, et L1 à Laplace centrée sur zéro. Je sais à quoi ressemblent ces priors, mais je ne comprends pas comment cela se traduit, par exemple, par …
Certaines fonctions de pénalité et approximations sont bien étudiées, comme le LASSO ( L1L1L_1 ) et le Ridge ( L2L2L_2 ) et comment elles se comparent en régression. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] a comparé la pénalité Bridge quand γ≥1γ≥1\gamma \geq 1 au LASSO, mais …
J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients …
Je veux mieux comprendre les packages R Larset Glmnet, qui sont utilisés pour résoudre le problème Lasso: (pour Variables et échantillons, voir www.stanford.edu/~hastie/Papers/glmnet.pdf à la page 3)m i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yje- β0- xTjeβ)2+ λ | | β| |l1]mjen(β0β)∈Rp+1[12N∑je=1N(yje-β0-XjeTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.