Échantillonnage PAC agnostique borne inférieure


10

Il est bien connu que pour l'apprentissage PAC classique, des exemples de sont nécessaires afin d'obtenir une limite d'erreur de ε whp, où d est la dimension VC de la classe de concept.Ω(d/ε)εd

Est-il connu que des exemples de sont nécessaires dans le cas agnostique?Ω(d/ε2)


3
Je ne sais pas à quoi ressemble la borne inférieure, une devrait exister si la borne Hoefding est serrée (et je pense que oui). Cette borne indique que pour 1 fn, si la probabilité d'erreur est p, alors vous avez besoin d'au plus échantillons pour estimer p à l'intérieur de l'erreur + - ϵ whp Donc, considérez n'importe quelle classe de concept avec 2 concepts, f 1 et f 2 et VC-dimension 2. Prenez une distribution sur les exemples pour que p 1 = p 2 + ϵ (ou vice versa) - cela est possible car VC-dimension est 2. Il semble qu'un algorithme utilisant uniquement Om=O(1/ϵ2)ϵf1f2p1=p2+ϵ exemples impliqueraient une borne Hoefding améliorée. O(1/ϵ)
Aaron Roth

1
A savoir, je pense que le Hoeffding lié est serré à pour O ( 1 / ε 2 ) . Je pense que le raisonnement ci-dessus est généralement connu ...p=1/2O(1/ϵ2)
Lev Reyzin

OK - on dirait que je me suis un autre exercice pour le cours de ML ... :) Merci pour la contribution, Aaron et Lev!
Aryeh

@Aaron, cela aurait peut-être dû être une réponse.
Suresh Venkat

Réponses:


6

Je me rends compte maintenant qu'une borne inférieure a en effet été établie par Anthony et Bartlett (voir la présentation ici ).

Edit 24-Sep-2018. Cette question m'a occupé pendant toutes ces années, et récemment, I. Pinelis et moi avons obtenu la constante optimale optimale dans la limite inférieure PAC agnostique qui apparaîtra dans Ann. Stat .


Dans votre article, vous ne citez pas ce travail ( jmlr.org/papers/volume17/15-389/15-389.pdf ). La complexité optimale de l'échantillon est-elle supérieure dans le cas réalisable sans lien avec votre travail? Ces limites supérieures de complexité optimale de l'échantillon correspondantes sont-elles connues pour le cas agnostique?
gradstudent

Je ne pense pas que le cas réalisable soit tout à fait lié. Dans le cas réalisable, l'ERM ne garantit pas des taux optimaux - d'où tout le travail acharné qu'Hanneke et d'autres ont dû déployer pour supprimer le facteur de journalisation, et on ne sait toujours pas si un bon apprenant peut atteindre le taux optimal. Au contraire, dans le cas agnostique, on sait depuis longtemps que l'ERM atteint le taux optimal.
Aryeh
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.