Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le surajustement / améliorer la précision prédictive.
Considérons les trois phénomènes suivants. Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes …
La saison des vacances m'a donné l'occasion de m'installer près du feu avec Les éléments d'apprentissage statistique . Venant d’une perspective économétrique (fréquentiste), j’ai du mal à comprendre les utilisations de méthodes de réduction telles que la régression de crête, le lasso et la régression du moindre angle (LAR). En …
Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Cependant, je ne comprends pas tout à fait la signification du fait que …
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …
Considérons un bon vieux problème de régression avec prédicteurs et taille d’échantillon . La sagesse habituelle est que l’estimateur OLS va sur-adapter et sera généralement surperformé par l’estimateur de régression de crête:Il est standard d’utiliser la validation croisée pour trouver un paramètre de régularisation optimal . Ici, j'utilise un CV …
Quelle est la formule exacte utilisée dans R lm() pour le R au carré ajusté? Comment puis-je l'interpréter? Formules ajustées au carré Il semble exister plusieurs formules pour calculer le R au carré ajusté. Formule de Wherry: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} La formule de McNemar: 1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Formule du Seigneur: 1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Formule de Stein: …
J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lassorégression: 1) Interprétabilité des coefficients. 2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait. 3) Pas besoin d'intercepter. Mais je m'interroge sur le point le plus …
Le papier net élastique original Zou & Hastie (2005) Régularisation et sélection des variables via le filet élastique introduit la fonction de perte nette élastique pour la régression linéaire (ici, je suppose que toutes les variables sont centrées et mises à l'échelle de la variance unitaire): mais appelé "filet élastique …
J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y a-t-il un …
La régression LASSO réduit les coefficients vers zéro, permettant ainsi une sélection efficace du modèle. Je crois que dans mes données, il existe des interactions significatives entre les covariables nominales et continues. Cependant, les «principaux effets» du vrai modèle ne sont pas nécessairement significatifs (non nuls). Bien sûr, je ne …
Pour un modèle linéaire , le terme de retrait est toujours .y=β0+xβ+εy=β0+Xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de neurones?β0β0\beta_0
La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …
J'ai lu sur l'estimateur de James-Stein. Il est défini, dans ces notes , comme θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X J'ai lu la preuve mais je ne comprends pas l'énoncé suivant: Géométriquement, l'estimateur de James – Stein rétrécit chaque composante de XXX vers l'origine ... Que signifie exactement "rétrécit chaque composant de …
J'ai une question sur le calcul du facteur de rétrécissement de James-Stein dans l'article de 1977 de Scientific American de Bradley Efron et Carl Morris, "Stein's Paradox in Statistics" . J'ai rassemblé les données pour les joueurs de baseball et elles sont données ci-dessous: Name, avg45, avgSeason Clemente, 0.400, 0.346 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.