Questions marquées «regularization»

Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le sur-ajustement / améliorer la précision prédictive.




5
Qu'est-ce que la régularisation en anglais simplifié?
Contrairement à d'autres articles, j'ai trouvé l' entrée de Wikipédia sur ce sujet illisible pour une personne non mathématique (comme moi). J'ai compris l'idée de base, à savoir que vous favorisiez les modèles avec moins de règles. Ce que je ne comprends pas, c'est comment passer d'un ensemble de règles …


2
Pourquoi le retrait fonctionne-t-il?
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …

7
Pourquoi le terme de régularisation * ajouté * à la fonction de coût (au lieu de multiplié, etc.)?
Chaque fois que la régularisation est utilisée, elle est souvent ajoutée à la fonction de coût, comme dans la fonction de coût suivante. J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Cela me semble intuitif puisque minimiser le fonction de coût signifie minimiser l'erreur (le terme de gauche) et minimiser les magnitudes …

6
Est une régression de crête inutile dans les dimensions élevées (
Considérons un bon vieux problème de régression avec prédicteurs et taille d’échantillon . La sagesse habituelle est que l’estimateur OLS va sur-adapter et sera généralement surperformé par l’estimateur de régression de crête:Il est standard d’utiliser la validation croisée pour trouver un paramètre de régularisation optimal . Ici, j'utilise un CV …

6
Pourquoi la multicolinéarité n'est-elle pas vérifiée dans les statistiques modernes / l'apprentissage automatique?
Dans les statistiques traditionnelles, lors de la construction d'un modèle, nous vérifions la multicolinéarité à l'aide de méthodes telles que les estimations du facteur d'inflation de la variance (VIF), mais en apprentissage automatique, nous utilisons plutôt la régularisation pour la sélection des caractéristiques et ne semblons pas vérifier si les …


1
Réseaux de neurones: impulsion de changement de poids et perte de poids
Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …

5
Comment dériver la solution de régression de crête?
J'ai des problèmes avec la dérivation de la solution pour la régression de crête. Je connais la solution de régression sans le terme de régularisation: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienneλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …

3
Justification empirique de la règle d'erreur standard unique lors de l'utilisation de la validation croisée
Existe-t-il des études empiriques justifiant l’utilisation de la règle de l’erreur standard unique en faveur de la parcimonie? Cela dépend évidemment du processus de génération des données, mais tout ce qui analyse un grand corpus de jeux de données serait une lecture très intéressante. La "règle d'erreur standard unique" est …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.