La validation croisée répétée doit-elle être utilisée pour évaluer les modèles prédictifs?

Je suis tombé sur cet article de 2012 de Gitte Vanwinckelen et Hendrik Blockeel remettant en question l'utilité de la validation croisée répétée, qui est devenue une technique populaire pour réduire la variance de la validation croisée.

Les auteurs ont démontré que, même si la validation croisée répétée diminue la variance des prédictions du modèle, étant donné que le même ensemble de données d'échantillonnage est rééchantillonné, la moyenne des estimations de validation croisée rééchantillonnées converge vers une estimation biaisée de la véritable précision prédictive et n'est donc pas utile.

La validation croisée répétée doit-elle être utilisée malgré ces limitations?

cross-validation

— RobertF
source

D'après mon expérience, la validation croisée (répétée ou non) ne donne pas une très bonne estimation de la précision prédictive. Mais il est très utile pour comparer les performances prédictives de différents modèles. C'est un bon moyen de choisir entre les modèles mais pas un bon moyen d'estimer les performances d'un modèle unique.

— Flet

@Flounderer C'est un bon point. Mon interprétation de l'article est que nous ne pouvons pas faire de comparaisons significatives de modèles basés sur la validation croisée répétée contre la validation croisée non répétée. Vous essayez d'extraire une quantité déraisonnable d'informations des données. Ou est-ce incorrect?

— RobertF

L'argument que le papier semble faire me semble étrange.

Selon le document, l'objectif du CV est d'estimer , la performance prédictive attendue du modèle sur de nouvelles données, étant donné que le modèle a été formé sur l'ensemble de données observées . Lorsque nous effectuons CV -fold, on obtient une estimation de ce nombre. En raison de la répartition aléatoire de en plis, ceci est une variable aléatoire $\alpha_2$ $S$ $k$ $\hat A$ $S$ $k$ avecmoyenne etvariance . En revanche, leCV répété fois donne une estimation avec la même moyenne $\hat A \sim f(A)$ $\mu_k$ $\sigma^2_k$ $n$ mais plus petite variance . $\mu_k$ $\sigma^2_k/n$

Évidemment, . Ce parti pris est quelque chose que nous devons accepter. $\alpha_2\ne \mu_k$

Cependant, l'erreur attendue sera plus grande pour les petits , et sera le plus grand pour , au moins sous des hypothèses raisonnables sur , par exemple lorsque . En d'autres termes, un CV répété permet d'obtenir une estimation plus précise de $\mathbb E\big[|\alpha_2-\hat A|^2\big]$ $n$ $n=1$ $f(A)$ $\hat A\mathrel{\dot\sim} \mathcal N(\mu_k,\sigma^2_k/n)$ $\mu_k$ et c'est une bonne chose car elle donne une estimation plus précise de . $\alpha_2$

Par conséquent, un CV répété est strictement plus précis qu'un CV non répété.

Les auteurs ne contestent pas cela! Au lieu de cela, ils affirment, sur la base des simulations, que

réduire la variance [en répétant CV] est, dans de nombreux cas, peu utile et essentiellement un gaspillage de ressources de calcul.

Cela signifie simplement que dans leurs simulations était assez faible; et en effet, la plus petite taille d'échantillon qu'ils ont utilisée était de , ce qui est probablement assez grand pour produire un petit . (La différence dans les estimations obtenues avec le CV non répété et le CV répété 30 fois est toujours faible.) Avec des échantillons de plus petite taille, on peut s'attendre à une plus grande variance entre les répétitions. $\sigma^2_k$ $200$ $\sigma^2_k$

CAVEAT: intervalles de confiance!

Un autre point soulevé par les auteurs est que

la déclaration des intervalles de confiance [dans la validation croisée répétée] est trompeuse.

Il semble qu'ils se réfèrent aux intervalles de confiance pour la moyenne des répétitions de CV. Je suis tout à fait d'accord pour dire que cela n'a aucun sens à signaler! Plus le CV est répété, plus ce CI sera petit, mais personne ne s'intéresse au CI autour de notre estimation de ! Nous nous soucions du CI autour de notre estimation de . $\mu_k$ $\alpha_2$

Les auteurs rapportent également des IC pour le CV non répété, et il n'est pas tout à fait clair pour moi comment ces IC ont été construits. Je suppose que ce sont les IC pour les moyennes à travers les plis. Je dirais que ces CI sont également à peu près dénués de sens! $k$

adult $\mu_k$

CAVEAT PLUS GENERAL: variance de CV.

Vous avez écrit ce CV répété

est devenu une technique populaire pour réduire la variance de la validation croisée.

$\mu_k$ $k=N$ $k$

Pourquoi donc? En effet, LOOCV présente la variance la plus élevée comme estimation de $\alpha_1$ $S$

— amibe dit réintégrer Monica
source

J'espère que @cbeleites remarquera ce fil et commentera ici ou laissera sa propre réponse: je sais qu'elle utilise (ou utilisait) beaucoup de CV répétés et je pense qu'elle a plaidé pour le calcul de la variabilité par rapport aux répétitions comme une mesure de la stabilité du modèle. Mais je ne pense pas qu'elle calculerait un CI sur les répétitions.

— amibe dit Réintégrer Monica

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

@RobertF: Je parlais (à la suite du document V&B) d'estimer les performances du modèle. Ma thèse est que le CV répété est plus précis que le CV non répété, et je pense que c'est incontestable (V&R soutient cependant que la différence de précision a tendance à être moins importante en pratique). Comparer deux modèles est beaucoup plus délicat, car disons que vous exécutez CV et obtenez 70% pour un modèle et 71% pour un autre modèle. Est-ce une différence "significative"? Eh bien, c'est un problème délicat sans réponse définitive. Et c'est indépendant du problème répété / non répété.

— amibe dit Réintégrer Monica

Matière

— shadowtalker

σ_{k}

$\sigma_k$