Questions marquées «regularization»

Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.

1
Besoin de centrer et de standardiser les données en régression
Considérez la régression linéaire avec une certaine régularisation: par exemple, trouver qui minimisexxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Habituellement, les colonnes de A sont normalisées pour avoir une moyenne et une norme unitaire nul, tandis que est centrée pour avoir une moyenne nulle. Je veux m'assurer que ma compréhension de la raison de …

2
Pourquoi la perte de norme L2 a-t-elle une solution unique et la perte de norme L1 a-t-elle possiblement plusieurs solutions?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Si vous regardez en haut de cet article, l'auteur mentionne que la norme L2 a une solution unique et que la norme L1 a peut-être de nombreuses solutions. Je comprends cela en termes de régularisation, mais pas en termes d'utilisation de la norme L1 ou de la norme L2 …


1
Régularisation pour les modèles ARIMA
Je connais LASSO, la régularisation de type crête et filet élastique dans les modèles de régression linéaire. Question: Ce type d'estimation pénalisée (ou similaire) peut-il être appliqué à la modélisation ARIMA (avec une partie MA non vide)? Dans la construction de modèles ARIMA, il semble habituel de considérer un ordre …

4
La preuve de formules équivalentes de régression de crête
J'ai lu les livres les plus populaires en apprentissage statistique 1- Les éléments de l'apprentissage statistique. 2- Une introduction à l'apprentissage statistique . Les deux mentionnent que la régression de crête a deux formules qui sont équivalentes. Existe-t-il une preuve mathématique compréhensible de ce résultat? Je suis également passé par …

3
Régularisation et mise à l'échelle des fonctionnalités dans l'apprentissage en ligne?
Disons que j'ai un classificateur de régression logistique. Dans l'apprentissage par lots normal, j'aurais un terme régularisateur pour éviter le surapprentissage et garder mes poids petits. Je normaliserais également et ferais évoluer mes fonctionnalités. Dans un environnement d'apprentissage en ligne, je reçois un flux continu de données. Je fais une …

1
Quelle méthode de comparaison multiple utiliser pour un modèle lmer: lsmeans ou glht?
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …

1
Quel est le plus petit
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Nous savons que pour λ≥1n∥XTy∥∞λ≥1n‖XTy‖∞\lambda \geq \frac{1}{n} \|X^T y\|_\infty , l'estimation au lasso β^λ=0β^λ=0\hat\beta^\lambda = 0 . (Voir, par exemple, la portée du paramètre de réglage Lasso et Ridge …



4
Normes
Une norme L1L1L_1 est unique (au moins en partie) car p=1p=1p=1 est à la frontière entre non convexe et convexe. Une norme L1L1L_1 est la norme convexe «la plus clairsemée» (non?). Je comprends que la norme euclidienne a ses racines dans la géométrie et elle a une interprétation claire lorsque …

1
Solution de forme fermée au problème du lasso lorsque la matrice de données est diagonale
\newcommand{\diag}{\operatorname{diag}} Nous avons le problème: en supposant que: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).n Σ i=1xix T i =diag(σ 2 1 ,...,Σ 2 d ).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Existe-t-il une solution sous …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.