Après avoir relu cette question, je peux vous donner la limite suivante:
Supposons que les échantillons sont tirés iid, la distribution est fixe et la perte est limitée par , puis avec une probabilité d'au moins ,
1 - δ E [ E ( h ) ] ≤ E ( h ) + B √B1−δ
E[E(h)]≤E^(h)+Blog1δ2m−−−−−√
où est la taille de l'échantillon et est la confiance. La limite tient trivialement à l'inégalité de McDiarmid.1 - δm1−δ
m est la taille de l'échantillon, est l'erreur de généralisation et est l'erreur de test pour l'hypothèse.E[E(h)]E^(h)
Veuillez ne pas signaler uniquement l'erreur de validation croisée ni l'erreur de test, celles-ci n'ont généralement aucun sens car ce ne sont que des estimations ponctuelles.
Ancien poste pour enregistrement:
Je ne suis pas sûr d'avoir bien compris votre question, mais je vais essayer.
Premièrement, je ne sais pas comment vous définiriez un intervalle de prédiction pour la sélection du modèle, car, si je comprends bien, les intervalles de prédiction font certaines hypothèses de distribution. Au lieu de cela, vous pouvez dériver des inégalités de concentration, qui ont essentiellement lié une variable aléatoire par sa variance pour une certaine probabilité. Les inégalités de concentration sont utilisées à travers l'apprentissage automatique, y compris la théorie avancée de l'amplification. Dans ce cas, vous voulez limiter l'erreur de généralisation (votre erreur en général, les points que vous n'avez pas vus) par votre erreur empirique (votre erreur sur l'ensemble de test) plus un terme de complexité et un terme qui se rapporte à la variance.
Maintenant, je dois dissiper un malentendu sur la validation croisée qui est extrêmement courant. La validation croisée ne vous donnera qu'une estimation impartiale de l'erreur attendue d'un modèle POUR UNE TAILLE D'ÉCHANTILLON FIXE. La preuve de cela ne fonctionne que pour le protocole d'exclusion. C'est en fait assez faible, car cela ne vous donne aucune information concernant la variance. D'un autre côté, la validation croisée renverra un modèle qui est proche de la solution de minimisation du risque structurel, qui est la meilleure solution théoriquement. Vous pouvez trouver la preuve en annexe ici: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Alors, comment dériver une borne de généralisation? (N'oubliez pas qu'une borne de généralisation est essentiellement un intervalle de prédiction sur l'erreur de généralisation pour un modèle spécifique). Eh bien, ces limites sont spécifiques à l'algorithme. Malheureusement, il n'y a qu'un seul manuel qui délimite tous les algorithmes couramment utilisés dans l'apprentissage automatique (y compris le boosting). Le livre est Foundations of Machine Learning (2012) par Mohri, Rostamizadeh et Talwalkar. Pour les diapositives de conférence qui couvrent le matériel, vous pouvez les trouver sur la page Web de Mohri: http://www.cs.nyu.edu/~mohri/ml14/
Bien que Elements of Statistical Learning soit un livre important et quelque peu utile, il n'est pas très rigoureux et il omet de nombreux détails techniques très importants concernant les algorithmes et omet complètement toute sorte de limites de généralisation. Foundations of Machine Learning est le livre le plus complet pour l'apprentissage automatique (ce qui est logique vu qu'il a été écrit par certains des meilleurs dans le domaine). Cependant, le manuel est avancé, alors méfiez-vous des détails techniques.
La généralisation liée au boosting peut être trouvée (avec preuve) ici: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
J'espère que ce sont suffisamment de pointeurs pour répondre à votre question. J'hésite à donner une réponse complète car il faudra environ 50 pages pour parcourir tous les détails nécessaires, sans parler des discussions préliminaires ...
Bonne chance!