Récemment, je me suis intéressé à l'empilement de modèles en tant que forme d'apprentissage d'ensemble. En particulier, j'ai expérimenté un peu avec certains jeux de données de jouets pour les problèmes de régression. J'ai essentiellement implémenté des régresseurs individuels de "niveau 0", stocké les prédictions de sortie de chaque régresseur comme une nouvelle fonctionnalité pour un "méta-régresseur" à prendre comme entrée, et ajusté ce méta-régresseur sur ces nouvelles fonctionnalités (les prédictions du niveau 0 régresseurs). J'ai été extrêmement surpris de voir des améliorations même modestes par rapport aux régresseurs individuels lors du test du méta-régresseur par rapport à un ensemble de validation.
Alors, voici ma question: pourquoi l'empilement de modèles est-il efficace? Intuitivement, je m'attendrais à ce que le modèle faisant l'empilement fonctionne mal car il semble avoir une représentation des caractéristiques appauvrie par rapport à chacun des modèles de niveau 0. C'est-à-dire que si j'entraîne 3 régresseurs de niveau 0 sur un ensemble de données avec 20 entités et que j'utilise les prédictions de ces régresseurs de niveau 0 comme entrée dans mon méta-régresseur, cela signifie que mon méta-régresseur n'a que 3 fonctionnalités pour apprendre. Il semble juste qu'il y ait plus d'informations encodées dans les 20 fonctionnalités originales que les régresseurs de niveau 0 ont pour la formation que les 3 fonctionnalités de sortie que le méta-régresseur utilise pour la formation.