Apprentissage agnostique sur des distributions arbitraires

Soit une distribution sur des paires chaîne de bits / étiquette et soit une collection de fonctions booléennes . Pour chaque fonction , soit: et soit: Disons qu'un algorithme apprend agnostiquement sur n'importe quelle distribution, si pour n'importe quel il peut avec probabilité trouver une fonction telle que , compte tenu du temps et d'un certain nombre d'échantillons de $D$ $\{0,1\}^d\times \{0,1\}$ $C$ $f:\{0,1\}^d\rightarrow\{0,1\}$ $f \in C$

e r r (f, D) = \underset{(x, y) \sim D}{Pr} [f (x) \neq y]

$err(f,D) = \Pr_{(x,y) \sim D}[f(x) \neq y]$

O P T (C, D) = min_{f \in C} e r r (f, D)

$OPT(C,D) = \min_{f \in C}\ err(f,D)$

A

$A$

C

$C$

D

$D$

2 / 3

$2/3$

f

$f$

e r r (f, D) \leq O P T (C, D) + ϵ

$err(f,D) \leq OPT(C,D) + \epsilon$

D

$D$ qui est délimité par un polynôme en

d

$d$ et

1 / ϵ

$1/\epsilon$ .

Question: Quelles classes de fonctions $C$ sont connues pour être apprises de manière agnostique sur des distributions arbitraires?

Aucune classe n'est trop simple! Je sais que même les conjonctions monotones ne sont pas connues pour être apprises de manière agnostique sur des distributions arbitraires, donc je cherche juste des classes de fonctions non triviales.

reference-request machine-learning lg.learning

— Aaron Roth
source

mérite d'être souligné pour les non-initiés que l'apprentissage agnostique se concentre sur le cas où OPT (C, D)> 0 (c'est-à-dire que vous avez la mauvaise classe d'hypothèse

— Suresh Venkat

Bon point. Dans le cas particulier où OPT (C, D) = 0, il s'agit d'un apprentissage PAC, et c'est beaucoup plus facile. Pour l'apprentissage agnostique, la garantie doit être valable quel que soit l'OPT (C, D).

— Aaron Roth

Il y a aussi le cas "PAC avec bruit de classification" où OPT (C, D)> 0, et même si vous avez la bonne classe d'hypothèse (paramètre réalisable), il y a une erreur parce que les étiquettes sont inversées au hasard à cause du bruit ... I Je souhaite que les noms des différents paramètres soient moins déroutants.

— Lev Reyzin

cela ressemble à un apprentissage agnostique avec une limite supérieure sur OPT (C, D)

— Suresh Venkat

Pas tout à fait, car le bruit ne doit pas être arbitraire dans le modèle de bruit de classification. Donc, s'il y avait un modèle de bruit contradictoire qui rendait difficile l'apprentissage (ou la recherche du minimiseur de risque empirique) dans le modèle agnostique, il pourrait ne pas se produire souvent dans le modèle de bruit de classification (c'est-à-dire tomber dans le paramètre delta PAC).

— Lev Reyzin

Si aucune classe n'est trop simple, voici quelques classes apprenables par PAC agnostiquement. En réponse aux commentaires, les classes avec de nombreuses hypothèses polynomiales sont barrées:

~~arbres de décision à profondeur constante (et autres classes ayant seulement plusieurs hypothèses)~~
~~hyperplans dans (seulement les hypothèses produisant des étiquetages distincts) $R^2$ $O(n^2)$~~
unions d'intervalles (programmation dynamique)
parité sur certains des premiers de bits (voir ceci et cela ) $\log(k)\log\log(k)$ $n$
~~d'autres classes d'hypothèses dans des environnements de faible dimension.~~

Presque tout le reste est NP-difficile à apprendre (au moins correctement) de manière agnostatique par PAC.

Le tutoriel d' Adam Kalai sur l'apprentissage agnostique peut également vous intéresser.

— Lev Reyzin
source

Merci. Ainsi, les arbres de décision à profondeur constante, les hyperplans bidimensionnels (je suppose que les autres paramètres de faible dimension auxquels vous faites référence) entrent tous dans la catégorie des fonctions polynomiales uniquement, qui peuvent être apprises par épuisement. Les parités sur les bits log (k) loglog (k) et les unions d'intervalles sont intéressantes en ce qu'elles contiennent de nombreuses fonctions superpolynomiales. Y en a-t-il d'autres comme ça?

— Aaron Roth

À droite, bien qu'il existe une infinité d'hyperplans dans R ^ 2, juste O (n ^ 2) par rapport à la classification des points de données différemment. Je ne connais pas d'autres classes intéressantes du haut de ma tête, mais si je pense à / en trouver, je vais modifier ma réponse.

— Lev Reyzin

vous voulez donc des classes de dimension VC illimitées?

— Suresh Venkat

la dimension VC illimitée serait certainement intéressante, mais les grandes classes finies (pour d fixe) sont déjà extrêmement intéressantes (et semblent être rares)

— Aaron Roth

@LevReyzin Le lien des conférences Kalai ne fonctionne pas. Pourriez-vous bien vouloir résoudre ce problème? J'ai cherché sur le net mais je n'ai pas pu trouver ça non plus.

— Anirbit