Quand les résultats de Shao sur la validation croisée avec abandon sont-ils applicables?

23

Dans son article Linear Model Selection by Cross-Validation , Jun Shao montre que pour le problème de la sélection des variables dans la régression linéaire multivariée, la méthode de validation croisée avec oubli (LOOCV) est `` asymptotiquement incohérente ''. En clair, il a tendance à sélectionner des modèles avec trop de variables. Dans une étude de simulation, Shao montre que même pour aussi peu que 40 observations, LOOCV peut sous-performer d'autres techniques de validation croisée.

Cet article est quelque peu controversé et quelque peu ignoré (10 ans après sa publication, mes collègues chimiométriques n'en avaient jamais entendu parler et utilisaient volontiers LOOCV pour la sélection des variables ...). Il y a aussi une croyance (j'en suis coupable), que ses résultats dépassent quelque peu la portée limitée d'origine.

La question est donc: jusqu'où ces résultats s'étendent-ils? Sont-ils applicables aux problèmes suivants?

Sélection variable pour la régression logistique / GLM?
Sélection variable pour la classification Fisher LDA?
Sélection de variables utilisant SVM avec un espace noyau fini (ou infini)?
Comparaison des modèles de classification, par exemple SVM utilisant différents noyaux?
Comparaison de modèles en régression linéaire, disons comparer MLR à Ridge Regression?
etc.

classification model-selection cross-validation

— shabbychef
source

Il doit y avoir quelque chose dans les livres de chimiométrie; le seul homme que je connaisse qui utilise LOO le fait aussi.

14

Vous devez spécifier l'objectif du modèle avant de pouvoir dire si les résultats de Shao sont applicables. Par exemple, si le but est la prédiction, alors LOOCV est logique et l'incohérence de la sélection des variables n'est pas un problème. D'un autre côté, si le but est d'identifier les variables importantes et d'expliquer comment elles affectent la variable de réponse, alors les résultats de Shao sont évidemment importants et LOOCV n'est pas approprié.

L'AIC est asymptotiquement LOOCV et BIC est asymptotiquement équivalent à un CV de sortie- out où $v$ --- le résultat BIC pour les modèles linéaires uniquement. Le BIC offre donc une sélection de modèle cohérente. Par conséquent, un bref résumé du résultat de Shao est que AIC est utile pour la prédiction mais BIC est utile pour l'explication. $v=n[1-1/(\log(n)-1)]$

— Rob Hyndman
source

1

Je crois que Shao a montré que le CV k-fold est incohérent si

est fixe alors que

croît.

k

$k$

n

$n$

— shabbychef

1

Le BIC a k croissant avec n.

— Rob Hyndman

1

Je rappellerai simplement en silence que la correspondance * IC <--> * CV du papier Shao ne fonctionne que pour les modèles linéaires, et BIC est équivalent uniquement au CV k-fold avec certains k.

En fait, je crois que Shao montre que CV est incohérent à moins que

comme

, où

est le nombre d'échantillons dans l'ensemble de test. Ainsi, le CV à

fois est toujours incohérent pour la sélection des variables. Ai-je mal compris? Par CV à

j'entends diviser l'échantillon en

groupes et m'entraîner sur

d'entre eux, tester sur 1 d'entre eux, puis répéter

fois. Alors

pour

n_{v} / n \to 1

$n_v/n \to 1$

n \to inf

$n \to \inf$

n_{v}

$n_v$

k

$k$

k

$k$

k

$k$

k - 1

$k-1$

k

$k$

n_{v} / n = 1 / k

$n_v/n = 1/k$

k

$k$ -pli CV, qui ne s'approche jamais 1.

— shabbychef

3

@mbq: Non - la preuve AIC / LOO de Stone 1977 ne suppose pas de modèles linéaires. Pour cette raison, contrairement au résultat de Shao, il est largement cité; voir par exemple les chapitres de sélection de modèle dans EOSL ou le Handbook of Computational Statistics, ou vraiment n'importe quel bon chapitre / article sur la sélection de modèle. Cela ne fait qu'un peu plus d'une page et vaut la peine d'être lu, car c'est un peu génial pour la façon dont il évite d'avoir à calculer les informations / le score de Fisher pour obtenir le résultat.

— ars

7

Ce document est quelque peu controversé et quelque peu ignoré

Pas vraiment, il est bien considéré en ce qui concerne la théorie de la sélection des modèles, bien qu'il soit certainement mal interprété. Le vrai problème est de savoir à quel point il est pertinent pour la pratique de la modélisation dans la nature. Supposons que vous effectuiez les simulations pour les cas que vous proposez d'étudier et de déterminer que LOOCV est en effet incohérent. La seule raison pour laquelle vous obtiendriez cela est parce que vous connaissiez déjà le "vrai" modèle et pourriez donc déterminer que la probabilité de récupérer le "vrai" modèle ne converge pas vers 1. Pour la modélisation dans la nature, à quelle fréquence est-ce vrai ( que les phénomènes sont décrits par des modèles linéaires et que le "vrai" modèle est un sous-ensemble de ceux considérés)?

L'article de Shao est certainement intéressant pour faire avancer le cadre théorique. Il apporte même une certaine clarté: si le "vrai" modèle est effectivement à l'étude, alors nous avons les résultats de cohérence pour accrocher nos chapeaux. Mais je ne sais pas à quel point les simulations réelles seraient intéressantes pour les cas que vous décrivez. C'est en grande partie pourquoi la plupart des livres comme EOSL ne se concentrent pas autant sur le résultat de Shao, mais plutôt sur l'erreur de prédiction / généralisation comme critère de sélection du modèle.

EDIT: La réponse très courte à votre question est: les résultats de Shao sont applicables lorsque vous effectuez une estimation des moindres carrés, une fonction de perte quadratique. Pas plus large. (Je pense qu'il y avait un article intéressant de Yang (2005?) Qui a cherché à savoir si vous pouviez avoir de la cohérence et de l'efficacité, avec une réponse négative.)

— ars
source

Je ne pense pas que ce soit pertinent de savoir si je connais le vrai modèle dans la nature. S'il existe un «vrai» modèle, je préférerais une méthode plus susceptible de le trouver.

— shabbychef

2

@shabbychef: Je ne suis pas en désaccord. Mais notez: "S'il existe un" vrai "modèle" et qu'il est à l'étude ... comment le sauriez-vous a priori?

— ars

1

Notez également que mon deuxième paragraphe fait en fait le point dans votre commentaire. C'est une belle propriété, mais il n'est pas clair à quel point elle est applicable à l'état sauvage; même si c'est réconfortant dans un certain sens, cela peut être erroné.

— ars

2

@ars - notez que la "linéarité" du "vrai" modèle n'est pas le seul moyen de récupérer le "vrai" modèle à partir d'un modèle linéaire. Si la composante non linéaire du «vrai» modèle peut être bien modélisée par le terme de bruit (par exemple, les effets non linéaires ont tendance à s'annuler), nous pourrions raisonnablement appeler le modèle linéaire «vrai», je pense. Cela revient à supposer que le reste d'une série linéaire de taylor est négligeable.

— probabilités du

1

v

$v$

6

$10/10$ $1$

Au-delà des preuves, je me demande s'il y a eu des études de simulation de l'un des cinq cas que je cite, par exemple.

— shabbychef

Tu veux en faire?

2

Je fais; Je vais cependant devoir apprendre beaucoup plus de R pour partager les résultats ici.

— shabbychef

1

@shabbychef: jamais fait ça? Et au fait, si vous comptez toujours des chimiométriciens qui utilisent ou n'utilisent pas CV pour la sélection de variables, vous pouvez me compter du côté de ceux qui refusent de le faire, car a) je n'ai pas encore de données réelles défini avec suffisamment de cas (échantillons) pour permettre même une seule comparaison de modèle, et b) pour mes données spectroscopiques, les informations pertinentes sont généralement "étalées" sur de grandes parties du spectre, donc je préfère la régularisation qui ne fait pas une sélection de variable difficile.

— cbeleites prend en charge Monica

1

1) La réponse de @ars mentionne Yang (2005), "Les forces de l'AIC et du BIC peuvent-elles être partagées?" . En gros, il semble que vous ne puissiez pas avoir un critère de sélection de modèle pour atteindre à la fois la cohérence (tendent à choisir le bon modèle, s'il existe en effet un modèle correct et il fait partie des modèles envisagés) et l'efficacité (atteindre la moyenne la plus faible erreur quadratique en moyenne parmi les modèles que vous avez choisis). Si vous avez tendance à choisir le bon modèle en moyenne, vous obtiendrez parfois des modèles légèrement trop petits ... mais en ratant souvent un vrai prédicteur, vous faites pire en termes de MSE que quelqu'un qui inclut toujours quelques prédicteurs erronés.

Donc, comme dit précédemment, si vous vous souciez de faire de bonnes prédictions plus que d'obtenir exactement les bonnes variables, il est bon de continuer à utiliser LOOCV ou AIC.

2) Mais je voulais également mentionner deux autres de ses articles: Yang (2006) "Comparing Learning Methods for Classification" et Yang (2007) "Cohérence de la validation croisée pour comparer les procédures de régression" . Ces articles montrent que vous n'avez pas besoin que le rapport des données de formation aux tests diminue vers 0 si vous comparez des modèles qui convergent à des taux plus lents que les modèles linéaires.

Donc, pour répondre plus directement à vos questions originales 1-6: les résultats de Shao s'appliquent lors de la comparaison de modèles linéaires entre eux. Que ce soit pour la régression ou la classification, si vous comparez des modèles non paramétriques qui convergent à un rythme plus lent (ou même en comparant un modèle linéaire à un modèle non paramétrique), vous pouvez utiliser la plupart des données pour la formation et avoir toujours un CV cohérent avec la sélection du modèle. .. mais quand même, Yang suggère que LOOCV est trop extrême.

— civilstat
source