Certaines caractéristiques peuvent éclairer la compréhension des méthodes d'ensemble.
Ensachage
Probablement la méthode d'ensemble la plus simple, l'ensachage, qui n'est rien de plus qu'une collection de classificateurs homogènes similaires construits sur des données de formation rééchantillonnées et maintenues ensemble par une méthode combinée, améliore la variance causée par l'instabilité des classificateurs de base en faisant la moyenne de leurs résultats. L'ensemble exploite cette instabilité pour traiter la composante de variance de l'erreur du classificateur de base et, dans une moindre mesure, leur biais.
Vous pouvez penser que l'ensachage fournit un degré important de lissage à ce qui serait autrement un classificateur de base "faible" très instable. Une raison, en dehors de leur tendance vers l'efficacité de calcul, pourquoi les classificateurs faibles sont choisis est qu'ils présentent une diversité plus élevée, ce qui est une caractéristique bénéfique pour les ensembles.
Si vous visualisez un ensemble ensaché plein de classificateurs stables très solides, ils auront un très haut degré d'accord sur leurs classifications d'exemples présentés à l'ensemble. En fait, ils votent tous de la même manière. Un comité dans lequel tous les membres votent de la même manière n'a que peu d'utilité sur un seul membre du comité.
Donc, pour fonctionner efficacement, un ensemble doit embrasser une certaine diversité parmi ses membres. De toute évidence, un comité de membres qui émettent des opinions presque aléatoires n'est pas non plus d'une grande utilité. Une position intermédiaire entre ces extrêmes est donc recherchée.
Dans la pratique, comme il n'existe pas de théorie complète sur le sujet, ce compromis est trouvé à l'aide de méthodes empiriques telles que la validation croisée ou les essais de résistance. Ils sont utilisés pour évaluer une résistance appropriée pour le classificateur de base.
Du fait que cette recherche d'un ensemble optimal impliquera normalement l'ajustement des paramètres des classificateurs de base et de l'ensemble lui-même, il est souhaitable que le nombre de ces paramètres soit maintenu aussi petit que possible. Sinon, la dimensionnalité de l'espace de recherche de paramètres signifie rapidement que la recherche du minimum global est intraitable sur le plan des calculs. Les arbres de décision sont un choix populaire car, comme cela a été mentionné, ils peuvent être utilisés efficacement sans nécessairement ajuster aucun de leurs paramètres.
Forêts aléatoires
Les forêts aléatoires, qui sont principalement des arbres de décision ensachés, tirent parti de l'instabilité importante des arbres en injectant une forte composante stochastique [les permutations d'un petit nombre de caractéristiques / facteurs à chaque nœud de décision dans un arbre] pour créer la diversité au sein de l'ensemble. Parce que chaque nœud d'un arbre est présenté avec une nouvelle sélection aléatoire de caractéristiques, les arbres sont très divers. L'ensemble a alors pour effet de faire la moyenne de la variance et du biais de la collection diversifiée d'arbres.
Pour être efficace, une "forêt aléatoire" de classificateurs Bayes naïfs, ou tout autre classificateur de base stable comme les SVM, a besoin de l'ajout d'un élément stochastique. Pour les classificateurs stables, des variations relativement faibles des données de formation, telles que celles résultant de l'ensachage, conduisent à des classificateurs très similaires.
Pour accroître la diversité, d'autres approches pourraient être appliquées. Par exemple, permutation des fonctionnalités affichées pour chaque classificateur de base. Cela a une restriction que la diversité disponible significative est limitée au nombre de combinaisons de l'ensemble de fonctionnalités. Une fois les combinaisons épuisées, aucun nouveau classificateur n'est disponible pour l'ensemble qui voterait différemment des membres existants.
Pour les problèmes avec relativement peu de fonctionnalités, cela limite considérablement le pool disponible de classificateurs. Il serait possible d'injecter d'autres sources de hasard, par exemple en sous-échantillonnant de manière agressive les données d'entraînement. La preuve semble être que, dans le cas général, une telle approche est inférieure au mélange particulier de biais et de diversité qu'offre une forêt aléatoire.
Il est possible d'utiliser avec succès d'autres classificateurs de base instables, tels que les perceptrons multicouches (réseaux de neurones) qui ont peu de nœuds et des quantités limitées de formation ou des approches de remplissage d'espace basées sur des points, par exemple la discrimination stochastique, pour injecter de la diversité dans les méthodes d'ensembles. Certes, dans le cas des MLP, un degré de réglage des paramètres est essentiel.
Booster
Boosting adopte une approche de construction de l'ensemble différente du modèle d'agglomération simple adopté par Bagging. Je suppose que conceptuellement, si vous pensez que l'ensachage est un modèle d'ensemble plat, le renforcement construit un classificateur en couches.
Chaque cycle de boosting choisit un nouveau classificateur parmi un ensemble de classificateurs potentiels construits à partir de données d'entraînement pondérées ou rééchantillonnées, en fonction des erreurs de classification du cycle précédent. Le nouveau classificateur est sélectionné de manière à minimiser l'erreur d'ensemble totale.
Cela contraste fortement avec le manque de critères de sélection qui résistent à la construction aléatoire d'un ensemble forestier. Chaque nouveau classificateur de base est spécifiquement nécessaire pour se concentrer sur les points faibles de l'ensemble existant, avec pour résultat que le renforcement agressif réduit les erreurs d'entraînement.
Aux premiers stades de la construction d'ensemble, le renforcement a peu de classificateurs faibles et chacun se concentre sur différentes zones de l'espace de formation, ce qui a principalement pour effet de réduire les biais. À mesure que la taille de l'ensemble augmente, les possibilités de réduction du biais diminuent et l'erreur due à la variance est améliorée.
L'avantage de l'instabilité dans le classificateur de base pour le renforcement est que, à mesure que l'ensemble se développe, le nombre d'exemples mal classés restants diminue. Un degré de diversité plus élevé est nécessaire pour générer un classificateur qui adopte une vue utilement différente des échantillons restants que ses prédécesseurs.
La puissance de cette approche peut être vue par le fait que des résultats acceptables peuvent être obtenus avec seulement des souches de décision, bien que les MLP se soient révélés très efficaces en général.
En raison de cette concentration constante sur les exemples mal classés, la faiblesse du boosting est qu'il peut être sensible au bruit, dans une certaine mesure, logitboost tente de remédier à cet échec.
Pas de repas gratuit
Il convient de rappeler qu'il n'existe pas de grande théorie unifiée de l'apprentissage automatique et que les résultats d'un classificateur particulier dépendent fortement du type de données avec lesquelles il est utilisé. Donc, a priori, il n'y a aucune raison solide et rapide d'affirmer qu'un type de classificateur est supérieur à un autre, autre que le consensus dérivé de l'expérimentation précédente avec des données similaires et l'utilité générale montrée par un algorithme dans une variété d'ensembles de données. Pour obtenir une bonne solution, vous voudrez peut-être expérimenter une poignée d'approches populaires.