Sélection du modèle original (?) Avec CV k-fold

Lors de l'utilisation de k-fold CV pour sélectionner parmi les modèles de régression, je calcule généralement l'erreur CV séparément pour chaque modèle, ainsi que son erreur standard SE, et je sélectionne le modèle le plus simple dans 1 SE du modèle avec l'erreur CV la plus faible (le 1 règle d'erreur standard, voir par exemple ici ). Cependant, on m'a récemment dit que de cette façon, je surestimais la variabilité et que dans le cas spécifique de la sélection entre deux modèles A et B, je devrais vraiment procéder de manière différente:

pour chaque pli de longueur , calculer les différences ponctuelles entre les deux prédictions du modèle, puis calculer la différence quadratique moyenne pour le pli $K$ $N_K$ $M S {ré}_{K} = \sqrt{\frac{\sum_{je = 1}^{N_{K}} {({\hat{y}}_{UNE je} - {\hat{y}}_{B je})}^{2}}{N_{K}}}$ $MSD_K=\sqrt{\frac{\sum_{i=1}^{N_K}\left(\hat{y}_{Ai}-\hat{y}_{Bi}\right)^2}{N_K}}$
moyenne entre les plis, comme d'habitude, et utiliser cette erreur de différence de CV (avec son erreur standard) comme estimateur de l'erreur de généralisation. $MSD_K$

Des questions:

Est-ce que cela a du sens pour vous? Je sais qu'il y a des raisons théoriques derrière l'utilisation de l'erreur CV comme estimateur d'erreur de généralisation (je ne sais pas quelles sont ces raisons, mais je sais qu'elles existent!). Je n'ai aucune idée s'il y a des raisons théoriques derrière l'utilisation de cette erreur CV "de différence".
Je ne sais pas si cela peut être généralisé aux comparaisons de plus de deux modèles. Le calcul des différences pour toutes les paires de modèles semble risqué (comparaisons multiples?): Que feriez-vous si vous aviez plus de deux modèles?

EDIT: ma formule est totalement fausse, la métrique correcte est décrite ici et c'est beaucoup plus compliqué. Eh bien, je suis heureux d'avoir demandé ici avant d'appliquer aveuglément la formule! Je remercie @Bay de m'avoir aidé à comprendre avec sa réponse éclairante. La mesure correcte décrite est assez expérimentale, donc je m'en tiendrai à mon cheval de bataille de confiance, l'erreur CV!

regression cross-validation model-selection

— DeltaIV
source

$MSD_K$

Par exemple, je pourrais trouver une paire de prédicteurs stupides:

{\hat{y}}_{UNE} (X, θ) = 1 + \frac{⟨ X, 1 ⟩}{θ}

$\hat y_A(\mathbf{x},\theta)= 1+\frac{\langle \mathbf{x},1\rangle}\theta$

{\hat{y}}_{B} (X, θ) : = 1 + \frac{⟨ X, 1 ⟩}{θ^{2}}

$\hat y_B(\mathbf{x},\theta):= 1+\frac{\langle \mathbf{x},1\rangle}{\theta^2}$

$\theta$ $MSD_K$

$MSD_K$ $MSD_K$

Réponse au commentaire du PO

La formule présentée dans votre commentaire nécessite un peu de contexte:

Il s'agit d'une mesure de précision bayésienne, en ce que elpd est la densité prédictive logarithmique attendue - une bouchée, mais en gros, c'est la somme des valeurs attendues du logarithme de la densité prédictive postérieure évaluée à chaque point de données sous une prédictive antérieure densité estimée par validation croisée.
La mesure ci-dessus (elpd) est calculée en utilisant la validation croisée `` laissez un sur '', où la densité prédictive est prise au point omis.
Ce que fait leur formule (19), c'est le calcul de l'erreur-type de la différence de précision prédictive (mesurée en utilisant elpd) entre deux modèles. L'idée est que la différence d'elpd est asymptotiquement normale, donc l'erreur standard a une moyenne inférentielle (et peut être utilisée pour tester si la différence sous-jacente est nulle), ou si le modèle A a une erreur de prédiction plus petite que le modèle B.

Donc, il y a beaucoup de pièces mobiles dans cette mesure: vous devez avoir exécuté un algorithme d'échantillonnage MCMC pour obtenir des points à partir de la densité de paramètres postérieure. Vous devez ensuite l'intégrer pour obtenir des densités prédictives. Ensuite, vous devez prendre les valeurs attendues de chacun d'eux (sur de nombreux tirages). C'est tout à fait un processus, mais à la fin, il est censé donner une erreur standard utile.

Remarque: Dans le troisième paragraphe complet ci-dessous l'équation (19), les auteurs déclarent que davantage de recherches sont nécessaires pour déterminer si cette approche fonctionne bien pour la comparaison de modèles ... donc, ce n'est pas encore bien testé (hautement expérimental). Ainsi, vous faites essentiellement confiance à l'utilité de cette méthode jusqu'à ce que des études de suivi vérifient qu'elle identifie de manière fiable le meilleur modèle (en termes d' elpd ).

Je comprends votre point de vue: il est clair que moi (ainsi que mon collègue qui m'a montré le journal) n'en ai rien compris. Pouvez-vous m'expliquer quel est le terme que Gelman appelle "l'erreur type de leur différence [modèles A et B]",

s e ({\hat{e l p d}}_{L O O}^{A} - {\hat{e l p d}}_{L O O}^{B})

$se(\widehat{elpd}_{LOO}^A-\widehat{elpd}_{LOO}^B)$

@DeltaIV Ok ... Je vais consulter la section référencée et essayer de décompresser cette formule pour vous.

@DeltaIV ok, j'ai eu un changement à revoir. J'ai élargi mon message. Cela semble être une méthode très expérimentale (et non vérifiée) pour comparer deux modèles de prédiction. Je serais prudent de l'utiliser à moins que vous ne puissiez vérifier ses performances avec vos propres études de Monte Carlo (c'est-à-dire, peut-il choisir le modèle le plus prédictif lorsque vous connaissez la bonne réponse?).