Sur la «force» des apprenants faibles


22

J'ai plusieurs questions étroitement liées concernant les apprenants faibles dans l'apprentissage d'ensemble (par exemple, le renforcement).

  1. Cela peut sembler stupide, mais quels sont les avantages d'utiliser des apprenants faibles plutôt que des apprenants forts? (par exemple, pourquoi ne pas booster avec des méthodes d'apprentissage "fortes"?)
  2. Existe-t-il une sorte de force "optimale" pour les apprenants faibles (par exemple en gardant tous les autres paramètres d'ensemble fixes)? Y a-t-il un "sweet spot" en ce qui concerne leur force?
  3. Comment mesurer la force d'un apprenant faible par rapport à celle de la méthode d'ensemble résultante. Comment mesurer quantitativement les avantages marginaux de l'utilisation d'un ensemble?
  4. Comment comparer plusieurs algorithmes d'apprentissage faibles pour décider lequel utiliser pour une méthode d'ensemble donnée?
  5. Si une méthode d'ensemble donnée aide les classificateurs faibles plus que les classificateurs forts, comment pouvons-nous dire qu'un classificateur donné est déjà "trop ​​fort" pour générer des gains significatifs lors de l'augmentation avec?

Réponses:


16

Cela peut être plus dans l'esprit d'ensachage, mais néanmoins:

  • Si vous avez vraiment un bon apprenant, il n'est pas nécessaire de l'améliorer par des trucs d'ensemble.
  • Je dirais ... non pertinent. En mélangeant et en ensachant trivialement, en augmentant la fabrication d'un classificateur trop fort, il peut y avoir des brèches dans la convergence (c'est-à-dire qu'une prédiction chanceuse peut faire l'itération suivante pour prédire le bruit pur et ainsi diminuer les performances), mais cela est généralement réparé lors des itérations.
  • Encore une fois, ce n'est pas le vrai problème. Le cœur même de ces méthodes est de

    1. forcer les classificateurs partiels à approfondir le problème.
    2. joindre leurs prédictions pour atténuer le bruit et amplifier le signal.

    1) nécessite une certaine attention dans la stimulation (c.-à-d. Un bon schéma de stimulation, un bon comportement de l'apprenant partiel - mais cela doit principalement être jugé par des expériences sur l'ensemble de la stimulation), 2) dans l'ensachage et le mélange (principalement comment garantir le manque de corrélation entre les apprenants) et ne sur-bruits pas l’ensemble). Tant que cela est OK, la précision du classificateur partiel est un problème de troisième ordre.


Merci @mbq. Est-ce que ce qui précède signifie que les classificateurs faibles bénéficient généralement plus des méthodes d'ensemble que les méthodes fortes? (c.-à-d. le renforcement aide plus les classificateurs faibles que les classificateurs forts). En ce sens, comment savoir qu'un classifieur donné est déjà suffisamment fort pour une certaine méthode d'ensemble? (par exemple, comment pouvez-vous dire à peu près que vous avez un apprenant fort qui ne bénéficiera pas beaucoup de la stimulation?)
Amelio Vazquez-Reina

1
Plutôt, seuls les classificateurs faibles donnent un espace d'amélioration. En général, la force est une qualité abstraite et nous ne pouvons pas vraiment la mesurer. Le seul test certain consiste simplement à faire une expérience et à vérifier si la prise en compte augmente considérablement les performances. Si oui, le classificateur était faible. Si non, eh bien, nous ne savons toujours rien.

11

Premièrement, les notions de «faible» et de «fort» ne sont que faiblement définies. De mon point de vue, ils doivent être définis par rapport au classificateur Bayes optimal, qui est la cible de tout algorithme de formation. Dans cet esprit, ma réponse à trois des points est la suivante.

  1. Calcul comme je le vois. La plupart des apprenants faibles que je connais sont rapides sur le plan des calculs (et ne méritent pas d'être pris en considération). Un point majeur de l'apprentissage d'ensemble est précisément que nous pouvons combiner des apprenants simples et rapides, mais pas si bons, et améliorer le taux d'erreur. Si nous utilisons des apprenants plus forts (et plus exigeants sur le plan du calcul), la marge d’amélioration devient plus petite, mais le coût de calcul devient plus grand, ce qui rend l’utilisation des méthodes d’ensemble moins intéressante. De plus, un seul apprenant fort peut être plus facile à interpréter. Cependant, ce qui est faible et ce qui est fort dépend du problème et du taux Bayes optimal que nous essayons d'atteindre. Par conséquent, si un apprenant qui est souvent considéré comme fort laisse encore de la place pour des améliorations lors de sa stimulation et que la stimulation est faisable sur le plan informatique, alors boostez ...
  2. Cela dépendra des critères que vous utilisez pour mesurer "optimal". En termes de taux d'erreur, je dirais non (j'accueille favorablement toute correction si d'autres ont une expérience différente). En termes de vitesse, peut-être, mais j'imagine que cela dépend fortement du problème. Je ne connais aucune littérature traitant de cela, désolé.
  3. ?
  4. Validation croisée, validation croisée, validation croisée. Comme toute autre comparaison des méthodes de formation dans le but de faire des prédictions, nous avons besoin d'estimations non biaisées de l'erreur de généralisation pour la comparaison, qui peuvent être obtenues en mettant de côté un ensemble de données de test ou en l'approximant par validation croisée.

Merci @NRH, c'est très utile. J'ai séparé la troisième question en deux questions distinctes, car je pense qu'elles nécessitent probablement des réponses différentes.
Amelio Vazquez-Reina

Existe-t-il donc un moyen de savoir à quel point un classificateur est proche du classificateur Bayes optimal? S'il est déjà suffisamment proche, nous ne pouvons pas l'améliorer.
highBandWidth

@highBandWidth, il n'est pas possible de connaître le taux Bayes. C'est une quantité théorique qui repose sur la distribution inconnue. Les hypothèses théoriques pourraient fournir des limites inférieures et supérieures (asymptotiques), et en utilisant la validation croisée ou des données de test indépendantes, il est possible d'estimer avec précision les limites supérieures. Mais à moins que vous ne connaissiez la distribution, il est impossible de dire si ces limites supérieures sont serrées ou laissent une marge d'amélioration.
NRH
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.