Questions marquées «regularization»

Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.


2
Explication lucide de la «stabilité numérique de l'inversion matricielle» dans la régression des crêtes et son rôle dans la réduction de la surajustement
Je comprends que nous pouvons utiliser la régularisation dans un problème de régression des moindres carrés comme w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] et que ce problème a une solution de forme fermée comme: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Nous voyons que dans la 2e équation, la régularisation consiste …


1
Régression linéaire vs régression RKHS
J'étudie la différence entre la régularisation dans la régression RKHS et la régression linéaire, mais j'ai du mal à saisir la différence cruciale entre les deux. (xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_mminα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation} où, avec quelques abus de notation, la i,ji,ji,j jième entrée de la matrice du …

1
Appliquer une régression de crête pour un système d'équations sous-déterminé?
Lorsque , le problème des moindres carrés qui impose une restriction sphérique à la valeur de peut être écrit comme pour un système surdéterminé. \ | \ cdot \ | _2 est la norme euclidienne d'un vecteur.y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - …

1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
Techniques pour détecter le sur-ajustement
J'ai eu un entretien d'embauche pour un poste en science des données. Au cours de l'entretien, on m'a demandé ce que je dois faire pour m'assurer que le modèle n'est pas trop adapté. Ma première réponse a été d'utiliser la validation croisée pour évaluer les performances du modèle. Cependant, l'intervieweur …

1
Les arrêts et abandons précoces sont-ils suffisants pour régulariser la grande majorité des réseaux de neurones profonds dans la pratique?
Il y a tellement de techniques de régularisation qu'il n'est pas pratique d'essayer toutes les combinaisons: l1 / l2 norme max abandonner arrêt précoce ... Il semble que la plupart des gens soient satisfaits d'une combinaison d'abandon + d'arrêt précoce: y a-t-il des cas où l'utilisation d'autres techniques a du …

1
Paramètre de régularisation LASSO de l'algorithme LARS
Dans leur article fondateur «Least Angle Regression» , Efron et al décrivent une modification simple de l'algorithme LARS qui permet de calculer des chemins de régularisation LASSO complets. J'ai implémenté cette variante avec succès et trace généralement le chemin de sortie en fonction du nombre d'étapes (itérations successives de l'algorithme …



1
Plage de lambda en régression nette élastique
\def\l{|\!|} Étant donné la régression nette élastique minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 comment choisir une plage appropriée de λλ\lambda pour la validation croisée? Dans le cas α=1α=1\alpha=1 (régression de crête), la formule dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} peut être …

1
Ajustement régularisé à partir de données résumées: choix du paramètre
Dans le prolongement de ma question précédente , la solution aux équations normales pour la régression des crêtes est donnée par: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty Pourriez-vous offrir des conseils pour choisir le paramètre de régularisation λλ\lambda. De plus, comme la diagonale de croît avec le nombre d'observationsXTXXTXX^TXmmm , devraitλλ\lambda être …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.