Statistiques et Big Data ridge-regression

2

Comprendre les résultats de la régression des crêtes

Je suis nouveau dans la régression des crêtes. Lorsque j'ai appliqué une régression de crête linéaire, j'ai obtenu les résultats suivants: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is …

9 ridge-regression

1

Plage de lambda en régression nette élastique

\def\l{|\!|} Étant donné la régression nette élastique minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 comment choisir une plage appropriée de λλ\lambda pour la validation croisée? Dans le cas α=1α=1\alpha=1 (régression de crête), la formule dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} peut être …

9 least-squares lasso regularization ridge-regression elastic-net

2

Statistiques PRESS pour la régression des crêtes

Dans les moindres carrés ordinaires, en régressant un vecteur cible contre un ensemble de prédicteurs , la matrice de chapeau est calculée commeyyyXXX H= X(XtX)- 1XtH=X(XtX)-1XtH = X (X^tX)^{-1} X^t et la PRESSE (somme résiduelle prédite des carrés) est calculée par SSP=∑je(eje1 -hje je)2SSP=∑je(eje1-hjeje)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 où est …

9 regression cross-validation ridge-regression

1

Ajustement régularisé à partir de données résumées: choix du paramètre

Dans le prolongement de ma question précédente , la solution aux équations normales pour la régression des crêtes est donnée par: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty Pourriez-vous offrir des conseils pour choisir le paramètre de régularisation λλ\lambda. De plus, comme la diagonale de croît avec le nombre d'observationsXTXXTXX^TXmmm , devraitλλ\lambda être …

9 regression regularization ridge-regression

1

La normalisation L2 de la régression des crêtes punit-elle l'interception? Sinon, comment résoudre sa dérivée?

Je suis nouveau au ML. J'ai été informé que la normalisation L2 de la régression des crêtes ne punit pas l'interceptionθ0θ0\theta_{0}. Comme dans la fonction de coût: ∇θJ( θ ) =12∑i = 1m(hθ⃗ (X( i )) -y( i ))2+ λ∑j = 1nθ2j∇θJ(θ)=12∑i=1m(hθ→(x(i))−y(i))2+λ∑j=1nθj2 \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} Le terme de normalisation L2 λ∑nj …

8 machine-learning ridge-regression

3

Dans la régression Ridge et LASSO, pourquoi plus petit

Quelqu'un peut-il fournir une vue intuitive sur pourquoi il est préférable d'avoir une version bêta plus petite? Pour LASSO, je peux comprendre cela, il y a un composant de sélection de fonctionnalités ici. Moins de fonctionnalités rendent le modèle plus simple et donc moins susceptible d'être sur-ajusté. Cependant, pour l'arête, …

8 regression lasso ridge-regression shrinkage

1

Finesse de la grille et sur-ajustement lors du réglage en LASSO, crête, filet élastique

Je me demande la finesse optimale de la grille et quelle est la relation entre la finesse de la grille et le sur-ajustement dans les méthodes de régularisation telles que LASSO, régression de crête ou filet élastique. Supposons que je veuille adapter un modèle de régression utilisant LASSO à un …

8 lasso regularization ridge-regression overfitting elastic-net

2

Quelqu'un peut-il expliquer ce que fait l'argument foldid dans glmnet?

J'essaie de déterminer quel alpha utiliser dans ma glmnetfonction, mais le fichier d'aide me dit: Notez que cv.glmnet ne recherche PAS de valeurs pour alpha. Une valeur spécifique doit être fournie, sinon alpha = 1 est supposé par défaut. Si les utilisateurs souhaitent également effectuer une validation croisée alpha, ils …

8 r lasso ridge-regression glmnet

3

Trouvez la distribution et passez à la distribution normale

J'ai des données qui décrivent la fréquence à laquelle un événement se produit pendant une heure ("nombre par heure", nph) et la durée des événements ("durée en secondes par heure", dph). Ce sont les données d'origine: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

Gradient de log-vraisemblance multivariée gaussienne

J'essaie de trouver l'estimation MAP d'un modèle par descente de gradient. Mon a priori est gaussien multivarié avec une matrice de covariance connue. Sur le plan conceptuel, je pense que je sais comment faire, mais j'espérais de l'aide pour les détails. En particulier, s'il existe un moyen plus facile d'aborder …

8 normal-distribution covariance-matrix regularization gradient-descent ridge-regression

2

Confus par l'implémentation de Ridge par MATLAB

J'ai deux implémentations différentes de ridgeMATLAB. L'un est tout simplement x=(A′A+Iλ)−1A′bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (comme on le voit sur la page de régression de crête de Wikipedia ), avecII\mathbf{I} étant la matrice d'identité des colonnes de taille (AA\mathbf{A}) ××\times Colonnes(AA\mathbf{A}), et J'appelle simplement la "crête" de Matlab avec x …

8 matlab ridge-regression sparse

1

Calculer l'intervalle de prédiction pour la régression de crête?

Quelqu'un sait-il comment calculer l'intervalle de prédiction pour la régression des crêtes? et quelle est sa relation avec l'intervalle de prédiction de la régression OLS?

8 ridge-regression prediction-interval

Questions marquées «ridge-regression»