Justification empirique de la règle d'erreur standard unique lors de l'utilisation de la validation croisée

Existe-t-il des études empiriques justifiant l’utilisation de la règle de l’erreur standard unique en faveur de la parcimonie? Cela dépend évidemment du processus de génération des données, mais tout ce qui analyse un grand corpus de jeux de données serait une lecture très intéressante.

La "règle d'erreur standard unique" est appliquée lors de la sélection de modèles par validation croisée (ou plus généralement par toute procédure basée sur la randomisation).

Supposons que nous considérions les modèles indexés par un paramètre de complexité , tels que est "plus complexe" que exactement quand . Supposons en outre que nous évaluons la qualité d'un modèle par un processus de randomisation, par exemple une validation croisée. Soit la qualité "moyenne" de , c'est-à-dire l'erreur de prédiction moyenne hors sac sur de nombreux cycles de validation croisée. Nous souhaitons minimiser cette quantité. $M_\tau$ $\tau\in\mathbb{R}$ $M_\tau$ $M_{\tau'}$ $\tau>\tau'$ $M$ $q(M)$ $M$

Cependant, comme notre mesure de qualité provient d’une procédure de randomisation, elle est variable. Soit $s(M)$ l'erreur-type de la qualité de $M$ des cycles de randomisation, par exemple, l'écart-type de l'erreur de prédiction hors sac de $M$ lors des cycles de validation croisée.

Ensuite, nous choisissons le modèle $M_\tau$ , où $\tau$ est le plus petit $\tau$ tel que

q (M_{τ}) \leq q (M_{τ^{'}}) + s (M_{τ^{'}}),

$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$

où $\tau'$ indexe le meilleur modèle (en moyenne), $q(M_{\tau'})=\min_\tau q(M_\tau)$ .

En d’autres termes, nous choisissons le modèle le plus simple (le plus petit $\tau$ ) qui n’est pas supérieur à une erreur type plus grave que le meilleur modèle $M_{\tau'}$ dans la procédure de randomisation.

J'ai trouvé cette "règle d'erreur standard unique" mentionnée aux endroits suivants, mais jamais avec une justification explicite:

Page 80 dans Classification et arbres de régression de Breiman, Friedman, Stone & Olshen (1984)
Page 415 dans Estimation du nombre de grappes dans un ensemble de données via la statistique d'écart de Tibshirani, Walther & Hastie ( JRSS B , 2001) (référence à Breiman et al.)
Pages 61 et 244 dans Eléments d'apprentissage statistique de Hastie, Tibshirani & Friedman (2009)
Page 13 dans Apprentissage statistique avec parcimonie par Hastie, Tibshirani & Wainwright (2015)

cross-validation model-selection regularization

— DavidShor
source

Bien que je sache à quoi vous faites référence par "One Standard Error Rule", je soupçonne fortement que beaucoup de gens ne le voudront pas, mais ils seraient intéressés par cette question s'ils le savaient. Peut-être que vous pourriez éditer pour ajouter quelques phrases explicatives? (Juste une suggestion ...)

— jbowman

@ jbowman: Je viens de modifier la question pour expliquer la règle d'erreur standard unique, mais je ne suis pas très intéressée par cela ... et la réponse ci-dessous ne répond pas vraiment à mes questions. N'importe qui, n'hésitez pas à vous améliorer.

— S. Kolassa - Réintégrer Monica le

Connexes: stats.stackexchange.com/questions/138569

— amibe dit de réintégrer Monica

Cela ferait un beau sujet pour un papier. Cela semble être une heuristique d'ingénierie judicieuse, mais tous les SEH ne fonctionnent pas en pratique, aussi une étude sur un grand nombre d'ensembles de données serait-elle intéressante. Je me demande s'il y a un problème de test d'hypothèses multiples qui pourrait signifier qu'il n'est pas très bien calibré, mais j'aurais pensé que ce serait mieux que de ne rien faire sur des jeux de données où ce type de sur-réglage risque d'être un problème. problème. La question est de savoir si cela rend les performances bien pires pour les jeux de données où ce n'est pas un problème.

— Dikran Marsupial

Réponses:

Ce qui suit n’est pas une étude empirique , c’est la raison pour laquelle j’ai voulu au départ l’afficher sous forme de commentaire, pas de réponse - mais c’est vraiment trop long pour un commentaire.

Cawley & Talbot ( J de Machine Learning Research , 2010) attirent l'attention sur la différence entre surajustement pendant la phase de sélection du modèle et surajustement pendant la phase d'ajustement du modèle.

Le deuxième type de overfitting est celle que la plupart des gens connaissent: étant donné un modèle particulier, nous ne voulons pas surajuster il, par exemple, pour l' adapter trop près aux idiosyncrasies particulières des données unique , nous avons en général. ( C’est là que le rétrécissement / la régularisation peut aider, en échangeant une légère augmentation du biais contre une forte diminution de la variance. )

Cependant, Cawley et Talbot soutiennent que nous pouvons également sur-adapter lors de la phase de sélection du modèle. Après tout, nous n’avons en général qu’un seul jeu de données et nous choisissons entre différents modèles de complexité variable. L'évaluation de chaque modèle candidat pour en sélectionner un implique généralement l' ajustement de ce modèle, ce qui peut être fait avec régularisation ou non. Mais cette évaluation en elle-même est encore une variable aléatoire, car elle dépend de l'ensemble de données spécifique que nous avons. Donc , notre choix d'un modèle « optimal » peut en soi présenter un parti pris et va présenter une variance, comme en fonction de l'ensemble de données spécifiques de tous les ensembles de données que nous aurions pu tirées de la population.

Cawley & Talbot soutiennent donc que le simple choix du modèle qui donne les meilleurs résultats dans cette évaluation pourrait bien être une règle de sélection peu biaisée, mais pouvant présenter une grande variance. Autrement dit, étant donné que différents jeux de données d'apprentissage du même processus de génération de données (DGP), cette règle peut sélectionner des modèles très différents, qui seraient ensuite ajustés et utilisés pour la prévision dans de nouveaux jeux de données qui suivent à nouveau le même DGP. Dans cette optique, restreindre la variance de la procédure de sélection du modèle mais engendrer un léger biais en faveur de modèles plus simples peut générer des erreurs plus faibles hors de l'échantillon.

Cawley et Talbot ne lient pas explicitement cette question à la règle d’erreur standard unique et leur section sur la "régularisation de la sélection de modèle" est très courte. Toutefois, la règle d’erreur standard à une erreur effectuerait exactement cette régularisation et prendrait en compte la relation entre la variance dans la sélection du modèle et la variance de l’erreur de validation croisée hors sac.

Par exemple, la figure 2.3 ci-dessous est tirée de Statistical Learning with Sparsity de Hastie, Tibshirani & Wainwright (2015) . La variance de sélection du modèle est donnée par la convexité de la ligne noire à son minimum. Ici, le minimum n'est pas très prononcé et la ligne est plutôt faiblement convexe, de sorte que la sélection du modèle est probablement assez incertaine avec une variance élevée. Et la variance de l'estimation de l'erreur CV OOB est bien sûr donnée par les multiples lignes bleu clair indiquant les erreurs types.

— S. Kolassa - Rétablir Monica
source

Haha, essayez cette recherche (ou mettez un trait d'union dans votre requête).

— amibe dit de réintégrer Monica

Si vous n'avez qu'un seul paramètre de régularisation, alors ce type de sur-ajustement a tendance à ne pas être trop problématique (le problème d'optimisation n'a qu'un degré de liberté), mais si vous avez plusieurs paramètres de régularisation (par exemple, détermination automatique de la pertinence pour les réseaux neuronaux) alors cela peut vite devenir très substantiel. La méthode one sd est une bonne heuristique pour éviter de sur-optimiser le paramètre de régularisation, mais il serait bien d'essayer d'avoir quelque chose d'un peu plus justifié (1/2)

— Dikran Marsupial

Les deux approches que nous avons étudiées (Mme Marsupial et moi-même) consistent à régulariser les hyper-paramètres avec un hyper-hyper-paramètre intégré analytiquement ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf). ) ou de convertir certains hyper-paramètres en paramètres et de les ajuster directement aux données, au détriment de l’ajout d’un paramètre de régularisation supplémentaire (mais cela réduit néanmoins les degrés de liberté pour la sélection du modèle, ce qui est donc utile) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)

— Dikran Marsupial

Incidemment, un ajustement excessif dans la sélection du modèle peut entraîner un ajustement excessif ou insuffisant du modèle dans l'ensemble de formation, ce qui peut rendre le problème un peu plus difficile à diagnostiquer. D'un point de vue bayésien, la meilleure chose à faire est de ne pas optimiser, mais de marginaliser au-dessus de

, mais cela coûte cher en informatique ou est compliqué, voire les deux. Un gros avantage de la règle 1sd est que c'est à l'autre bout de ce spectre, et en tant qu'ingénieur, j'aime les choses simples qui fonctionnent; o) (3/2)

λ

$\lambda$

— Dikran Marsupial

Stats.stackexchange.com/questions/24799 est l'un des sujets abordés par @DikranMarsupial sur l'optimisation-lambda-vs-marginalizing-over-lambda . Cette discussion porte sur la régression de crête, et la marginalisation est probablement (?) Plus délicate pour lasso / réseau élastique / etc., alors que la beauté de CV est sa facilité de mise en œuvre.

— amibe dit de réintégrer Monica

Pour une justification empirique, reportez-vous à la page 12 de ces notes de cours d’exploration de données de Tibshirani , qui montre l’erreur CV en fonction de lambda pour un problème de modélisation particulier. La suggestion semble être que, au-dessous d'une certaine valeur, tous les lambdas donnent à peu près la même erreur CV. Cela est logique car, contrairement à la régression de crête, LASSO n’est généralement pas utilisé, ni même principalement, pour améliorer la précision des prévisions. Son principal argument de vente est de rendre les modèles plus simples et plus faciles à interpréter en éliminant les prédicteurs les moins pertinents / précieux.

$\lambda$ $L_1$

— Paul
source

Je ne comprends pas la logique de cette réponse. Ex: "contrairement à la régression de crête, LASSO n'est pas un mécanisme permettant d'améliorer la précision des prédictions" - pourquoi? Pourquoi L1 est-il si différent de L2? Dans la phrase suivante, vous décrivez ce qui se passe avec L1 pour les lambdas bas, mais je pense que la même chose se produit avec L2 pour les lambdas faibles.

— amibe dit de réintégrer Monica

Notez qu'il s'agit d'une explication heuristique reposant sur des hypothèses non énoncées, comme tous les prédicteurs sont informatifs. Si vous avez une tonne de prédicteurs de bruit et quelques prédicteurs informatifs, il est possible que la valeur de lambda optimise clairement et nettement la métrique CV: celle qui correspond à la sélection du sous-ensemble de prédicteurs informatifs. Lorsque lambda diminue en dessous de cette valeur, vous ne faites que laisser du bruit et faire mal au modèle.

— Paul

Je pense que l'argument fonctionne aussi bien pour Ridge et Lasso, si vous utilisez une définition large de la parcimonie dans laquelle plus de régularisation -> modèle plus simple. Cependant, il est plus facile de motiver pour N1 que pour N2 en raison des différents types de problèmes et d'ensembles de données sur lesquels ils sont utilisés. Les personnes qui utilisent L1 sont plus intéressées par un modèle simple et sont plus susceptibles de rencontrer le type de courbe d'erreur CV présentée par Tibshirani.

— Paul

Du texte classique ESL , p. 224: "On utilise souvent une règle d’ “erreur un-standard” avec validation croisée, dans laquelle on choisit le modèle le plus parcimonieux dont l’erreur est tout au plus une erreur standard supérieure à l’erreur du meilleur modèle. " L'exemple donné est une régression de sous-ensemble et une courbe en forme de genou par rapport au nombre de prédicteurs est montrée. La courbe est plate au-dessus du nombre correct de prédicteurs, ce qui est cohérent avec l'explication que j'ai donnée ci-dessus. Aucune justification rigoureuse ou mathématique n'est mentionnée.

— Paul

Je pense donc que le principal problème ici est que le minimum est mal déterminé, mais que le modèle le plus régularisé à l'intérieur d'un sigma du minimum est bien défini.

— Paul

$\lambda$ $\lambda$ $\hat S(\lambda)$ $\lambda$

$\lambda^ \star$ $P(S_0 \subset \hat S(\lambda^\star))\rightarrow 1$ $S_0$

Cela devrait être rapporté dans les statistiques pour les données de grandes dimensions par Bühlmann et van de Geer.

$\lambda$

— Donbeo
source

Pouvez-vous entrer un peu plus en détail ici? Cela semble fascinant.

— DavidShor

λ

$\lambda$

Je pense que le fait est que choisir plus de variables que nécessaire réduira les performances de prévision moins que de ne pas sélectionner suffisamment de variables. Pour cette raison, CV a tendance à sélectionner plus de variables.

— Donbeo

Jetez un coup d'œil à ce livre springer.com/gp/book/9783642201912 et au chapitre sur le lasso ici drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM

— Donbeo

Ceci est le livre que je voulais dire

— Donbeo