J'essaie de résoudre la tâche de régression. J'ai découvert que 3 modèles fonctionnent parfaitement pour différents sous-ensembles de données: LassoLARS, SVR et Gradient Tree Boosting. J'ai remarqué que lorsque je fais des prédictions en utilisant tous ces 3 modèles, puis que je fais un tableau de la «sortie réelle» et des sorties de mes 3 modèles, je vois que chaque fois au moins un des modèles est vraiment proche de la sortie réelle, bien que 2 autres pourrait être relativement loin.
Lorsque je calcule une erreur minimale possible (si je prends la prédiction du «meilleur» prédicteur pour chaque exemple de test), j'obtiens une erreur qui est beaucoup plus petite que l'erreur de n'importe quel modèle seul. J'ai donc pensé à combiner les prédictions de ces 3 modèles différents dans une sorte d'ensemble. La question est, comment faire cela correctement? Tous mes 3 modèles sont construits et ajustés à l'aide de scikit-learn, fournit-il une sorte de méthode qui pourrait être utilisée pour emballer des modèles dans un ensemble? Le problème ici est que je ne veux pas simplement faire la moyenne des prévisions des trois modèles, je veux le faire avec la pondération, où la pondération doit être déterminée en fonction des propriétés d'un exemple spécifique.
Même si scikit-learn ne fournit pas une telle fonctionnalité, il serait bien que quelqu'un sache comment gérer cette tâche - de déterminer la pondération de chaque modèle pour chaque exemple dans les données. Je pense que cela pourrait être fait par un régresseur séparé construit au-dessus de tous ces 3 modèles, qui essaiera de produire des poids optimaux pour chacun des 3 modèles, mais je ne suis pas sûr que ce soit la meilleure façon de le faire.