Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le surajustement / améliorer la précision prédictive.
La régression de crête estime les paramètres ββ\boldsymbol \beta dans un modèle linéaire y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta by β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y, où λλ\lambda est un paramètre de régularisation. Il est bien connu qu'elle fonctionne souvent …
Si nous commençons avec un ensemble de données , y appliquons Lasso et obtenons une solution , nous pouvons appliquer à nouveau Lasso à l'ensemble de données , où S est l'ensemble des non index zéro de \ beta ^ L , pour obtenir une solution, \ beta ^ {RL} …
Il y a déjà un article sur ce site qui parle du même problème: pourquoi le retrait fonctionne-t-il? Mais, même si les réponses sont populaires, je ne crois pas que l'essentiel de la question soit vraiment abordé. Il est assez clair que l'introduction d'un biais dans l'estimation entraîne une réduction …
Je suis pris par l'idée du rétrécissement de James-Stein (c'est-à-dire qu'une fonction non linéaire d'une observation unique d'un vecteur de normales éventuellement indépendantes peut être un meilleur estimateur des moyennes des variables aléatoires, où «mieux» est mesuré par erreur quadratique ). Cependant, je ne l'ai jamais vu dans le travail …
Existe-t-il des résultats analytiques ou des articles expérimentaux concernant le choix optimal du coefficient du terme de pénalité ℓ1ℓ1\ell_1 ? Par optimal , je veux dire un paramètre qui maximise la probabilité de sélectionner le meilleur modèle, ou qui minimise la perte attendue. Je pose la question car il est …
Le mot rétrécissement est souvent utilisé dans certains cercles. Mais ce qui est rétrécissement, il ne semble pas y avoir de définition claire. Si j'ai une série chronologique (ou toute collection d'observations d'un processus), quelles sont les différentes façons de mesurer un certain type de rétrécissement empirique sur la série? …
Zou et al. "Sur les" degrés de liberté "du lasso" (2007) montrent que le nombre de coefficients non nuls est une estimation non biaisée et cohérente des degrés de liberté du lasso. Cela me semble un peu contre-intuitif. Supposons que nous ayons un modèle de régression (où les variables sont …
Supposons que j'ai deux estimateurs et qui sont des estimateurs cohérents du même paramètre et tels que avec V_1 \ leq V_2 au sens psd. Ainsi, asymptotiquement \ widehat {\ beta} _1 est plus efficace que \ widehat {\ beta} _2 . Ces deux estimateurs sont basés sur différentes fonctions …
Je suis en train d' étudier LASSO (moins un retrait absolu et opérateur sélection) à l'intervalle. Je vois que la valeur optimale pour le paramètre de régularisation peut être choisie par validation croisée. Je vois aussi dans la régression de crête et de nombreuses méthodes qui appliquent la régularisation, nous …
Chaque énoncé que je trouve de l'estimateur de James-Stein suppose que les variables aléatoires estimées ont la même variance (et l'unité). Mais tous ces exemples mentionnent également que l'estimateur JS peut être utilisé pour estimer des quantités n'ayant rien à voir les unes avec les autres. L' exemple de wikipedia …
Pour un exemple simple, supposons qu'il existe deux modèles de régression linéaire Modèle 1 a trois prédicteurs, x1a, x2betx2c Le modèle 2 a trois prédicteurs du modèle 1 et deux prédicteurs supplémentaires x2aetx2b Il existe une équation de régression de la population où la variance de la population expliquée est …
Supposons que j'ai des données longitudinales de la forme (j'ai plusieurs observations, ce n'est que la forme d'une seule). Je suis intéressé par les restrictions sur . Un sans restriction équivaut à prendre avec .Y =( Y1, … , YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, …
Je suis confus au sujet de l'analyse de permutation pour la sélection d'entités dans un contexte de régression logistique. Pourriez-vous fournir une explication claire du test de permutation aléatoire et comment s'applique-t-il à la sélection des fonctionnalités? Peut-être avec un algorithme et des exemples exacts. Enfin, comment se compare-t-il aux …
Supposons que j'ai des observations appariées tirées iid comme pour . Soit Z_I = X_i + y_i, et on note Z_ {} i_j la j ème valeur observée de Z . Quelle est la distribution (conditionnelle) de X_ {i_j} ? (ou de manière équivalente, celle de Y_ {i_j} )i = …
Je cherche à estimer un GLM hiérarchique mais avec une sélection de caractéristiques pour déterminer quelles covariables sont pertinentes au niveau de la population à inclure. Supposons que j'ai GGG groupes avec NNN observations et KKKcovariables possibles C'est-à-dire que j'ai une matrice de conception de covariables , résultats . Les …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.