Merci à Aryeh d' avoir porté cette question à mon attention.
Comme d'autres l'ont mentionné, la réponse à (1) est Oui , et la méthode simple de minimisation des risques empiriques dans atteint la complexité de l'échantillon ( voir Vapnik et Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler et Warmuth, 1989).CO((d/ε)log(1/ε))
Quant à (2), il est en fait connu qu'il existe des espaces
où aucun algorithme d'apprentissage approprié n'atteint mieux que la complexité de l'échantillon, et par conséquent, un apprentissage correct ne peut pas atteindre la complexité optimale de l' échantillon . À ma connaissance, ce fait n'a jamais été publié, mais est enraciné dans un argument connexe de Daniely et Shalev-Shwartz (COLT 2014) (formulé à l'origine pour une question différente, mais liée, dans l'apprentissage multiclasse).C Ω ( ( d / ε ) log ( 1 / ε ) ) O ( d / ε )Ω((d/ε)log(1/ε))O(d/ε)
Considérez le cas simple , et mettez l'espace comme , et est singletons : c'est-à-dire que chaque classificateur dans classe exactement un point de comme et les autres comme . Pour la borne inférieure, prenez la fonction cible comme un singleton aléatoire , où , et , la distribution marginale de , est uniforme surd=1X{1,2,...,1/ε}Cfz(x):=I[x=z],z∈XCX10fx∗x∗∼Uniform(X)PXX∖{x∗}1 z 1 C z X ∖ { x * } 1 / 2 f z z ≠ x * 1 / 2 Ω ( ( 1 / ε ) log ( 1 / ε ) ) X ∖ { x * } Ω ( ( 1 / ε ) log ( 1 / ε ) ). Maintenant, l'apprenant ne voit jamais d'exemples étiquetés , mais il doit choisir un point pour deviner est étiqueté (surtout, la fonction `` tout zéro '' n'est pas dans , donc tout apprenant doit deviner quelques ), et jusqu'à ce qu'il ait vu chaque point dans il a au moins chance de deviner faux (c'est-à-dire la probabilité postérieure que son ait est au moins ). L'argument du collecteur de coupons implique qu'il faudrait1z1CzX∖{x∗}1/2fzz≠x∗1/2Ω((1/ε)log(1/ε)) pour voir chaque point dans . Cela prouve donc une limite inférieure de pour tous les apprenants appropriés.X∖{x∗}Ω((1/ε)log(1/ε))
Pour le général , nous prenons comme , prenons comme classificateurs pour les ensembles de taille exactement , choisissez la fonction cible au hasard dans , et reprenez comme uniforme sur les seuls points que la fonction cible classe (de sorte que l'apprenant ne voit jamais un point nommé ). Ensuite, une généralisation de l'argument coupon-collecteur implique que nous avons besoin d' échantillons pour voir au moinsd>1X{1,2,...,d/(4ε)}CIAA⊂XdCP01Ω((d/ε)log(1/ε))|X|−2dpoints distincts de , et sans voir autant de points distincts, tout apprenant approprié a au moins chance d'obtenir plus de de sa supposition de points erronés dans son hypothèse choisie , ce qui signifie que son taux d'erreur est supérieur à . Donc, dans ce cas, il n'y a aucun apprenant approprié avec une complexité d'échantillon inférieure à , ce qui signifie qu'aucun apprenant approprié n'atteint la complexité optimale de l'échantillon .X1/3d/4AdhAεΩ((d/ε)log(1/ε))O(d/ε)
Notez que le résultat est assez spécifique à l'espace construit. Il existe des espaces où les apprenants appropriés peuvent atteindre la complexité optimale de l'échantillon , et même l'expression exacte complète dans (Hanneke, 2016a). Certaines limites supérieures et inférieures pour les apprenants ERM généraux ont été développées dans (Hanneke, 2016b), quantifiées en termes de propriétés de l'espace , ainsi que des cas plus spécialisés où des apprenants appropriés spécifiques peuvent parfois atteindre l'optimum complexité de l'échantillon.CCO(d/ε)O((d/ε)+(1/ε)log(1/δ))C
Références:
Vapnik et Chervonenkis (1974). Théorie de la reconnaissance des formes. Nauka, Moscou, 1974.
Blumer, Ehrenfeucht, Haussler et Warmuth (1989). L'apprentissage et la dimension Vapnik-Chervonenkis. Journal de l'Association for Computing Machinery, 36 (4): 929–965.
Daniely et Shalev-Shwartz (2014). Apprenants optimaux pour les problèmes multiclasses. Dans les actes de la 27e conférence sur la théorie de l'apprentissage.
Hanneke (2016a). L'échantillon optimal de complexité de l'apprentissage PAC. Journal of Machine Learning Research, vol. 17 (38), p. 1-15.
Hanneke (2016b). Limites d'erreur raffinées pour plusieurs algorithmes d'apprentissage. Journal of Machine Learning Research, vol. 17 (135), p. 1-55.