J'ai entendu dire que la régression des crêtes peut être dérivée comme la moyenne d'une distribution postérieure, si l'a priori est adéquatement choisi. L'intuition est-elle que les contraintes définies sur les coefficients de régression par les a priori (par exemple, les distributions normales standard autour de 0) sont identiques / …
Dans "The Elements of Statistical Learning" (2nd ed), p63, les auteurs donnent les deux formulations suivantes du problème de régression des crêtes: β^r i dge= argminβ{ ∑i = 1N( yje- β0- ∑j = 1pXje jβj)2+ λ ∑j = 1pβ2j}β^rjerége=argminβ{∑je=1N(yje-β0-∑j=1pXjejβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 …
J'ai lu les livres les plus populaires en apprentissage statistique 1- Les éléments de l'apprentissage statistique. 2- Une introduction à l'apprentissage statistique . Les deux mentionnent que la régression de crête a deux formules qui sont équivalentes. Existe-t-il une preuve mathématique compréhensible de ce résultat? Je suis également passé par …
Lorsque vous exécutez une régression de crête, comment interprétez-vous les coefficients qui se retrouvent plus grands que leurs coefficients correspondants sous les moindres carrés (pour certaines valeurs de )? La régression des crêtes n'est-elle pas censée réduire les coefficients de façon monotone?λλ\lambda Sur une note connexe, comment interpréter un coefficient …
En régression de crête, la fonction objectif à minimiser est: RSS + λ ∑ β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Peut-on l'optimiser en utilisant la méthode du multiplicateur de Lagrange? Ou est-ce une différenciation directe?
Ma compréhension générale est que l' AIC traite de l'arbitrage entre la qualité de l'ajustement du modèle et la complexité du modèle. A jeC= 2 k - 2 l n ( L )UNEjeC=2k-2ln(L)AIC =2k -2ln(L) = nombre de paramètres dans le modèlekkk = vraisemblanceLLL Le critère d'information bayésien BIC est …
J'apprends la régression des crêtes et je sais que la régression des crêtes a tendance à mieux fonctionner en présence de multicolinéarité. Je me demande pourquoi c'est vrai? Une réponse intuitive ou mathématique serait satisfaisante (les deux types de réponses seraient encore plus satisfaisants). De plus, je sais que ce …
Je veux calculer l'AICc d'un modèle de régression de crête. Le problème est le nombre de paramètres. Pour la régression linéaire, la plupart des gens suggèrent que le nombre de paramètres est égal au nombre de coefficients estimés plus sigma (la variance de l'erreur). En ce qui concerne la régression …
J'ai lu que la régression de crête pourrait être obtenue en ajoutant simplement des lignes de données à la matrice de données d'origine, où chaque ligne est construite en utilisant 0 pour les variables dépendantes et la racine carrée de kkk ou zéro pour les variables indépendantes. Une ligne supplémentaire …
Je recherche de la documentation sur la régression de crête négative . En bref, il est une généralisation de la régression linéaire de la crête négative en utilisant λλ\lambda dans la formule β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Le cas positif a une belle théorie: en tant …
Cet article suit celui-ci: pourquoi l'estimation des crêtes devient-elle meilleure que l'OLS en ajoutant une constante à la diagonale? Voici ma question: Pour autant que je sache, la régularisation des crêtes utilise une norme ℓ2ℓ2\ell_2 (distance euclidienne). Mais pourquoi utilisons-nous le carré de cette norme? (une application directe de ℓ2ℓ2\ell_2 …
Selon les références Livre 1 , Livre 2 et papier . Il a été mentionné qu'il existe une équivalence entre la régression régularisée (Ridge, LASSO et Elastic Net) et leurs formules de contraintes. J'ai également examiné Cross Validated 1 et Cross Validated 2 , mais je ne vois pas de …
J'utilise un modèle de régression avec Lasso et Ridge (pour prédire une variable de résultat discrète allant de 0 à 5). Avant d'exécuter le modèle, j'utilise la SelectKBestméthode de scikit-learnpour réduire l'ensemble de fonctionnalités de 250 à 25 . Sans sélection initiale des caractéristiques, Lasso et Ridge cèdent tous deux …
Supposons que j'ai deux estimateurs et qui sont des estimateurs cohérents du même paramètre et tels que avec V_1 \ leq V_2 au sens psd. Ainsi, asymptotiquement \ widehat {\ beta} _1 est plus efficace que \ widehat {\ beta} _2 . Ces deux estimateurs sont basés sur différentes fonctions …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.