Dans le boosting, des classificateurs faibles ou instables sont utilisés comme apprenants de base. C'est le cas car l'objectif est de générer des limites de décision très différentes. Ensuite, un bon apprenant de base est celui qui est très biaisé, en d'autres termes, la sortie reste fondamentalement la même même lorsque les paramètres de formation des apprenants de base sont légèrement modifiés.
Dans les réseaux de neurones, le décrochage est une technique de régularisation qui peut être comparée à des ensembles d'entraînement. La différence est que l'assemblage se fait dans l'espace latent (les neurones existent ou non) diminuant ainsi l'erreur de généralisation.
"Chaque exemple de formation peut ainsi être considéré comme fournissant des gradients pour une architecture différente, échantillonnée au hasard, de sorte que le réseau neuronal final représente efficacement un énorme ensemble de réseaux neuronaux, avec une bonne capacité de généralisation" - citant d' ici .
Il existe deux techniques de ce type: dans le décrochage, les neurones sont supprimés (ce qui signifie que les neurones existent ou non avec une certaine probabilité) tandis que dans dropconnect, les poids sont supprimés.
Maintenant, pour répondre à votre question, je crois que les réseaux de neurones (ou perceptrons) ne sont pas utilisés comme apprenants de base dans une configuration boostée car ils sont plus lents à s'entraîner (prend trop de temps) et les apprenants ne sont pas aussi faibles, bien qu'ils puissent être configuré pour être plus instable. Donc, cela ne vaut pas la peine.
Il y a peut-être eu des recherches sur ce sujet, mais il est dommage que les idées qui ne fonctionnent pas bien ne soient généralement pas publiées avec succès. Nous avons besoin de plus de recherches couvrant des voies qui ne mènent nulle part, alias "ne vous embêtez pas à essayer cela".
ÉDITER:
J'en avais un peu plus à ce sujet et si vous êtes intéressé par des ensembles de grands réseaux, alors vous pourriez faire référence à des méthodes de combinaison des sorties de plusieurs de ces réseaux. La plupart des gens font la moyenne ou utilisent le vote majoritaire selon la tâche - ce n'est peut-être pas optimal. Je pense qu'il devrait être possible de modifier les poids pour la sortie de chaque réseau en fonction de l'erreur sur un enregistrement particulier. Moins les sorties sont corrélées, meilleure est votre règle d'assemblage.