La méthode que je connais pour construire une forêt aléatoire est la suivante: (à partir de http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )
Pour construire un arbre dans la forêt, nous:
- Bootstrap un échantillon de taille N où N est la taille de notre ensemble d'entraînement. Utilisez cet exemple amorcé comme ensemble de formation pour cet arbre.
- À chaque nœud de l'arbre, sélectionnez au hasard m de nos M entités. Sélectionnez le meilleur de ces m fonctionnalités pour partager. (où m est un paramètre de notre forêt aléatoire)
- Faites pousser chaque arbre dans toute la mesure du possible, c'est-à-dire sans élagage.
Bien que cet algorithme soit logique au niveau procédural et produise certainement de bons résultats, je ne sais pas quelle est la motivation théorique derrière les étapes 1, 2 et 3. Quelqu'un pourrait-il expliquer ce qui a motivé quelqu'un à proposer cette procédure et pourquoi fonctionne si bien?
Par exemple: pourquoi devons-nous effectuer l'étape 1? Il ne semble pas que nous démarrions pour son objectif habituel de réduction de variance.