Cela fait longtemps que je suis des compétitions Kaggle et je me rends compte que de nombreuses stratégies gagnantes impliquent l’utilisation d’au moins un des «trois grands»: l’ensachage, le boost et l’empilement.
Pour les régressions, plutôt que de se concentrer sur la construction d'un meilleur modèle de régression possible, la construction de modèles de régression multiples tels que la régression linéaire (généralisée), la régression aléatoire, les modèles de régression KNN, NN et SVM et la fusion des résultats en un semble raisonnable - effectuer chaque méthode individuellement un grand nombre de fois.
Bien sûr, la clé est une compréhension solide de chaque méthode et une histoire intuitive peut être racontée sur la base d'un modèle de régression linéaire, mais je me demande si cela est devenu la méthodologie de pointe pour obtenir les meilleurs résultats possibles.