Mes questions concernent les forêts aléatoires. Le concept de ce beau classificateur est clair pour moi, mais il reste encore beaucoup de questions pratiques d'utilisation. Malheureusement, je n’ai trouvé aucun guide pratique sur la RF (j’ai cherché quelque chose comme "Un guide pratique pour la formation de machines Boltzman restreintes" de Geoffrey Hinton, mais pour Random Forests!
Comment peut-on accorder RF dans la pratique?
Est-il vrai qu'un plus grand nombre d'arbres est toujours meilleur? Existe-t-il une limite raisonnable (sauf la capacité comp. Bien sûr) pour un nombre croissant d’arbres et comment l’estimer pour un jeu de données donné?
Qu'en est-il de la profondeur des arbres? Comment choisir le raisonnable? Est-il judicieux d'expérimenter des arbres de différentes longueurs dans une même forêt et quelles sont les directives à suivre?
Existe-t-il d’autres paramètres intéressants à prendre en compte lors de la formation RF? Algos pour la construction d'arbres individuels peut être?
Quand ils disent que les RF résistent à l'overfitting, comment est-ce vrai?
J'apprécierai toutes les réponses et / ou liens vers des guides ou des articles que j'ai peut-être manqués pendant ma recherche.