Calcul des intervalles de prédiction lors de l'utilisation de la validation croisée

Les estimations de l'écart type sont-elles calculées via:

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.$

( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )

pour des précisions de prédiction échantillonnées à partir d'une validation croisée multipliée par 10? Je crains que la précision de la prédiction calculée entre chaque pli dépende en raison du chevauchement substantiel entre les ensembles d'entraînement (bien que les ensembles de prédiction soient indépendants). Toutes les ressources qui en discuteraient seraient très utiles.

— Christopher Dorian
source

D'intérêt possible: une formule mathématique pour l'erreur de prédiction de validation croisée K-fold? , Estimations de la variance dans la validation croisée multipliée par k .

— chl

Également d'intérêt possible: intervalle de prédiction de régression linéaire .

— gung - Rétablir Monica

Je crains que la précision de la prédiction calculée entre chaque pli dépende en raison du chevauchement substantiel entre les ensembles d'entraînement (bien que les ensembles de prédiction soient indépendants).

À mon humble avis, le chevauchement entre les ensembles de formation n'a pas besoin d'être une grande préoccupation ici. Autrement dit, il est bien sûr important de vérifier si les modèles sont stables. Stable implique que les prédictions des modèles de substitution de validation croisée sont équivalentes (c'est-à-dire qu'un cas indépendant obtiendrait la même prédiction par tous ces modèles), et en fait la validation croisée revendique généralement l'équivalence non seulement entre les modèles de substitution mais aussi avec le modèle formé sur tous cas. Cette dépendance est donc plutôt une conséquence de ce que nous voulons avoir.

Cela s'applique à la question typique: si je forme un modèle sur ces données, quels sont les intervalles de prédiction? Si la question est plutôt, si nous formons un modèle sur cas de cette population, quels sont les intervalles de prédiction?, Nous ne pouvons pas y répondre car ce chevauchement dans les ensembles d'apprentissage signifie que nous sous-estimons la variance d'un montant inconnu. $n$

Quelles sont les conséquences par rapport aux tests avec un ensemble de tests indépendant?

Les estimations de validation croisée peuvent avoir une variance plus élevée que de tester le modèle final avec un ensemble de tests indépendant de la même taille, car en plus de la variance due aux cas de test, nous sommes confrontés à une variance due à l'instabilité des modèles de substitution.
Cependant, si les modèles sont stables, cette variance est faible / négligeable. De plus, ce type de stabilité peut être mesuré.
Ce qui ne peut pas être mesuré, c'est la représentativité de l'ensemble de données par rapport à la population dont il a été tiré. Cela inclut une partie du biais du modèle final (cependant, un petit ensemble de tests indépendant peut également avoir un biais) et cela signifie que la variance correspondante ne peut pas être estimée par validation croisée.
Dans la pratique d'application (performance du modèle formé sur ces données), le calcul de l'intervalle de prédiction serait confronté à des problèmes que IMHO sont plus importants que la partie de la validation croisée de variance qui ne peut pas détecter: par exemple
- la validation croisée ne peut pas tester les performances pour les cas qui sont indépendants dans le temps (des prédictions sont généralement nécessaires pour les cas qui seront mesurés à l'avenir)
- les données peuvent contenir des clusters inconnus et les performances hors cluster peuvent être importantes. Les données en cluster sont en principe quelque chose que vous pouvez prendre en compte dans la validation croisée, mais vous devez connaître le clustering.
Ce sont plus qu'une simple validation croisée par rapport à un ensemble de tests indépendant: fondamentalement, vous devez vous asseoir et concevoir une étude de validation, sinon il y a un risque élevé que l'ensemble de tests "indépendant" ne soit pas si indépendant. Une fois cela fait, on peut penser aux facteurs susceptibles d'avoir une importance pratique et à ceux qui peuvent être négligés. Vous pouvez arriver à la conclusion qu'après un examen approfondi, la valorisation croisée est assez bonne et la chose raisonnable à faire car la validation indépendante serait beaucoup trop chère par rapport au gain d'informations possible.

Toutes choses réunies, j'utiliserais la formule habituelle pour l'écart-type, l'appellerais par analogie avec et rapporterais en détail comment le test a été effectué. $s_{CV}$ $RMSE_{CV}$

— cbeleites mécontents de SX
source