Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non.
Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec une technique de ré-échantillonnage (bootstrap, CV, etc.) afin d’adapter l’ensemble des paramètres donnant la meilleure erreur de généralisation.
Ma question est la suivante: pouvez-vous aller trop loin ici? Les gens parlent de faire des recherches sur la grille comme ça, mais pourquoi ne pas simplement considérer cela comme un problème d'optimisation et accéder au meilleur ensemble de paramètres possible? J'ai posé des questions sur certains mécanismes de cette question dans cette question, mais cela n'a pas attiré beaucoup d'attention. Peut-être que la question a été mal posée, mais peut-être que la question elle-même représente une mauvaise approche que les gens ne font généralement pas?
Ce qui me dérange, c'est le manque de régularisation. En rééchantillonnant, le meilleur nombre d'arbres pouvant pousser dans un GBM pour cet ensemble de données est de 647 avec une profondeur d'interaction de 4, mais je suis sûr que cela sera vrai pour les nouvelles données (en supposant que la nouvelle population est identique à l'ensemble de formation)? En l'absence de valeur raisonnable à «réduire» (ou, si vous préférez, aucune information préalable informative), le ré-échantillonnage semble être le meilleur que nous puissions faire. Je n'entends pas parler de ça, alors je me demande si quelque chose me manque.
Évidemment, il y a un coût en calcul considérable associé à la multiplication de nombreuses itérations afin de tirer le meilleur parti du pouvoir prédictif d'un modèle. Il est donc clair que vous le feriez si vous aviez le temps / le grognement d'optimiser et chaque bit l'amélioration de la performance est précieux.