Questions marquées «regularization»

Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.

1
Les degrés de liberté peuvent-ils être un nombre non entier?
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


2
Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure?
J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de Laplace).BBBBBBBiBiB_i J'ai essayé de le …

6
Pourquoi des poids plus petits donnent-ils des modèles de régularisation plus simples?
J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la régularisation. L'objectif de la régularisation …



5
Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?
Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de …


3
Interprétation de la régularisation des crêtes en régression
J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) …


2
Pourquoi lambda «dans une erreur standard du minimum» est-il une valeur recommandée pour lambda dans une régression nette élastique?
Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée. Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se, quelle est la valeur de lambda qui minimise l'erreur …



2
Qu'est-ce que la «régression à rang réduit»?
J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients …

3
Pourquoi Lars et Glmnet donnent-ils des solutions différentes au problème du Lasso?
Je veux mieux comprendre les packages R Larset Glmnet, qui sont utilisés pour résoudre le problème Lasso: (pour Variables et échantillons, voir www.stanford.edu/~hastie/Papers/glmnet.pdf à la page 3)m i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yje- β0- xTjeβ)2+ λ | | β| |l1]mjen(β0β)∈Rp+1[12N∑je=1N(yje-β0-XjeTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.