Dans la théorie de l'apprentissage statistique, n'y a-t-il pas un problème de surapprentissage sur un ensemble de test?


16

Examinons le problème de la classification de l'ensemble de données MNIST.

Selon la page Web MNIST de Yann LeCun , «Ciresan et al.» a obtenu un taux d'erreur de 0,23% sur l'ensemble de test MNIST en utilisant le réseau neuronal convolutionnel.

Notons l'ensemble de formation MNIST comme Dtrain , l'ensemble de test MNIST comme Dtest , l'hypothèse finale qu'ils ont obtenue en utilisant Dtrain comme h1 , et leur taux d'erreur sur l'ensemble de test MNIST en utilisant h1 comme Etest(h1)=0.0023 .

De leur point de vue, étant donné que est un ensemble de tests échantillonné au hasard à partir de l'espace d'entrée indépendamment de h 1 , ils peuvent insister sur le fait que les performances d'erreur hors échantillon de leur hypothèse finale E o u t ( h 1 ) sont limitées comme suit de l'inégalité P de Hoeffding [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ]Dtesth1Eout(h1) N

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

.Ntest=|Dtest|

En d'autres termes, au moins probabilité , E o u t ( h 1 ) E t e s t ( h 1 ) + 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Prenons un autre point de vue. Supposons qu'une personne souhaite bien classer l'ensemble de test MNIST. Il a donc d'abord regardé la page Web MNIST de Yann LeCun , et a trouvé les résultats suivants obtenus par d'autres personnes en utilisant 8 modèles différents,

Résultats de la classification MNIST

g

gDtestHtrained={h1,h2,..,h8}

Etest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Ce résultat implique qu'il pourrait y avoir sur-ajustement sur l'ensemble de test si nous choisissons le modèle le plus performant parmi plusieurs modèles.

h1Etest(h1)=0.0023h1Dtesth1

Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ

P[Eout(h1)Etest(h1)+12Ntestln2δ]1δ
P[Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ]1δ

Cependant, il est évident que ces deux inégalités sont incompatibles.

Où est-ce que je fais mal? Lequel a raison et lequel a tort?

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

Réponses:


1

g=h1gh1 est un modèle indépendant des données de test.

gHtrained={h1,h2,...,h8}Dtest

gtesttestg(test)=h1g(Dtest)Htrainedh1Htrained

Pour l'autre question:

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

gh1gh1

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.