Statistiques PRESS pour la régression des crêtes

Dans les moindres carrés ordinaires, en régressant un vecteur cible contre un ensemble de prédicteurs , la matrice de chapeau est calculée comme $y$ $X$

H = X (X^{t} X)^{- 1} X^{t}

$H = X (X^tX)^{-1} X^t$

et la PRESSE (somme résiduelle prédite des carrés) est calculée par

S S_{P} = \sum_{je} {(\frac{e_{je}}{1 - h_{je je}})}^{2}

$SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2$

où est le ème résiduel et sont les éléments diagonaux de la matrice chapeau. $e_i$ $i$ $h_{ii}$

En régression de crête avec coefficient de pénalité $\lambda$ , la matrice de chapeau est modifiée pour être

H = X (X^{t} X + λ je)^{- 1} X^{t}

$H = X (X^t X + \lambda I)^{-1} X^t$

La statistique PRESS peut-elle être calculée de la même manière, en utilisant la matrice chapeau modifiée?

regression cross-validation ridge-regression

— Chris Taylor
source

Réponses:

oui, j'utilise beaucoup cette méthode pour la régression de la crête du noyau, et c'est un bon moyen de sélectionner le paramètre de la crête (voir par exemple cet article [doi , preprint] ).

Une recherche du paramètre de crête optimal peut être rendue très efficace si les calculs sont effectués sous forme canonique (voir par exemple cet article ), où le modèle est re-paramétré de sorte que l'inverse d'une matrice diagonale soit requis.

— Dikran Marsupial
source

Merci. D'après votre expérience, si vous utilisez PRESS pour sélectionner le paramètre de crête, comment votre erreur de prédiction réelle sur un ensemble de test se compare-t-elle à votre PRESS mesurée sur l'ensemble d'entraînement? Vraisemblablement (PRESS / n) est une sous-estimation de l'erreur de prédiction, mais est-elle fiable dans la pratique?

— Chris Taylor

La PRESSE est approximativement non biaisée, le vrai problème avec elle est la variance, ce qui signifie qu'il y a beaucoup de variabilité en fonction de l'échantillon particulier de données sur lequel elle est évaluée. Cela signifie que si vous optimisez PRESS dans la sélection de modèle, vous pouvez sur-ajuster le critère de sélection de modèle et vous retrouver avec un modèle médiocre. Cependant, pour le type de modèle qui m'intéresse (méthodes d'apprentissage du noyau), il est assez efficace et le problème de variance ne semble pas être bien pire que les autres critères qui pourraient fonctionner mieux.

— Dikran Marsupial

En cas de doute, vous pouvez toujours utiliser l'ensachage en plus de la régression des crêtes comme une sorte d'approche «ceinture et bretelles» pour éviter le sur-ajustement.

— Dikran Marsupial

Merci de votre aide! J'avais l'impression que l'ensachage n'apportait aucune amélioration aux modèles linéaires, par exemple, comme le prétend l'article Wikipedia ? Pouvez-vous clarifier?

— Chris Taylor

aucun problème. Je soupçonne que l'article Wikipedia est incorrect, la sélection de sous-ensembles en régression linéaire est l'un des exemples que Brieman utilise dans l'article original sur Bagging. Il est possible que la régression linéaire des moindres carrés sans sélection de sous-ensemble ne soit pas affectée de manière asymptotique par l'ensachage, mais même dans ce cas, je doute qu'elle s'applique aux modèles linéaires plus généralement (comme la régression logistique).

— Dikran Marsupial

L'approche suivante peut être adoptée pour appliquer la régularisation L2 et obtenir la statistique PRESS. La méthode utilise une approche d'augmentation des données.

Supposons que vous ayez N échantillons de Y et K variables explicatives X1, X2 ... Xk .... XK

Ajouter une variable supplémentaire X0 qui a 1 sur les N échantillons
Augmentez avec K échantillons supplémentaires où:
- La valeur Y est 0 pour chacun des K échantillons
- La valeur X0 est 0 pour chacun des K échantillons
- La valeur Xk est SQRT (Lambda * N) * [STDEV (Xk) sur N échantillons] si en diagonale et 0 sinon
Il y a maintenant N + K échantillons et K + 1 variables. Une régression linéaire normale peut être résolue avec ces entrées.
Comme il s'agit d'une régression effectuée en une étape, la statistique PRESS peut être calculée comme normale.
L'entrée de régularisation Lambda doit être décidée. La révision des statistiques PRESS pour les différentes entrées de Lambada peut aider à déterminer une valeur appropriée.

— James65
source