Dans la théorie de l'apprentissage statistique, n'y a-t-il pas un problème de surapprentissage sur un ensemble de test?

Examinons le problème de la classification de l'ensemble de données MNIST.

Selon la page Web MNIST de Yann LeCun , «Ciresan et al.» a obtenu un taux d'erreur de 0,23% sur l'ensemble de test MNIST en utilisant le réseau neuronal convolutionnel.

Notons l'ensemble de formation MNIST comme $D_{train}$ , l'ensemble de test MNIST comme $D_{test}$ , l'hypothèse finale qu'ils ont obtenue en utilisant $D_{train}$ comme $h_{1}$ , et leur taux d'erreur sur l'ensemble de test MNIST en utilisant $h_{1}$ comme $E_{test}(h_{1}) = 0.0023$ .

De leur point de vue, étant donné que est un ensemble de tests échantillonné au hasard à partir de l'espace d'entrée indépendamment de , ils peuvent insister sur le fait que les performances d'erreur hors échantillon de leur hypothèse finale sont limitées comme suit de l'inégalité de Hoeffding $D_{test}$ $h_{1}$ $E_{out}(h_{1})$ où

P [| E_{o u t} (h_{1}) - E_{t e s t} (h_{1}) | < ϵ |] \geq 1 - 2 e^{2 ϵ^{2} N_{t e s t}}

$P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}}$

N_{t e s t} = | D_{t e s t} |

$N_{test}=|D_{test}|$

En d'autres termes, au moins probabilité , $1-\delta$

E_{o u t} (h_{1}) \leq E_{t e s t} (h_{1}) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}$

Prenons un autre point de vue. Supposons qu'une personne souhaite bien classer l'ensemble de test MNIST. Il a donc d'abord regardé la page Web MNIST de Yann LeCun , et a trouvé les résultats suivants obtenus par d'autres personnes en utilisant 8 modèles différents,

Résultats de la classification MNIST

$g$

$g$ $D_{test}$ $H_{trained}=\{h_1, h_2, .. ,h_8\}$

$E_{test}(g)$

P [| E_{o u t} (g) - E_{i n} (g) | < ϵ] \geq 1 - 2 | H_{t r a i n e d} | e^{2 ϵ^{2} N_{t e s t}}

$P[|E_{out}(g)-E_{in}(g)|<\epsilon] \geq 1 - 2|H_{trained}|e^{2\epsilon^{2}N_{test}}$

$1-\delta$

E_{o u t} (g) \leq E_{t e s t} (g) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2 | H_{t r a i n e d} |}{δ}}

$E_{out}(g) \leq E_{test}(g) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

Ce résultat implique qu'il pourrait y avoir sur-ajustement sur l'ensemble de test si nous choisissons le modèle le plus performant parmi plusieurs modèles.

$h_{1}$ $E_{test}(h_{1}) = 0.0023$ $h_{1}$ $D_{test}$ $h_{1}$

E_{o u t} (h_{1}) \leq E_{t e s t} (h_{1}) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2 | H_{t r a i n e d} |}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

P [E_{o u t} (h_{1}) \leq E_{t e s t} (h_{1}) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}\;] \geq 1-\delta$

P [E_{o u t} (h_{1}) \leq E_{t e s t} (h_{1}) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2 | H_{t r a i n e d} |}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}\;] \geq 1-\delta$

Cependant, il est évident que ces deux inégalités sont incompatibles.

Où est-ce que je fais mal? Lequel a raison et lequel a tort?

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

— asqdf
source

$g=h_1$ $g$ $h_1$ est un modèle indépendant des données de test.

$g$ $H_{trained} = \{ h_1, h_2,..., h_8 \}$ $D_{test}$

$g$ $D_{test}$ $D^*_{test}$ $g(D^*_{test}) = h_1$ $g(D_{test})$ $H_{trained}$ $h_1$ $H_{trained}$

Pour l'autre question:

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

$g$ $h_1$ $g$ $h_1$

— Tĩnh Trần
source