Ma question: Pourquoi la forêt aléatoire considère-t-elle des sous-ensembles aléatoires de fonctionnalités pour la division au niveau du nœud dans chaque arbre plutôt qu'au niveau de l'arbre ?
Contexte: Il s'agit d'une question d'histoire. Tin Kam Ho a publié ce document sur la construction de « forêts de décision » en choisissant au hasard un sous - ensemble de fonctionnalités à utiliser pour la croissance de chaque arbre en 1998. Quelques années plus tard, en 2001, Leo Breiman a publié son séminal Random Forest papier , le sous - ensemble de fonctionnalités est aléatoire sélectionnés à chaque nœud dans chaque arbre, pas à chaque arbre. Alors que Breiman a cité Ho, il n'a pas expliqué spécifiquement le passage de la sélection des caractéristiques aléatoires au niveau de l'arbre au niveau du nœud.
Je me demande ce qui a spécifiquement motivé ce développement. Il semble que la sélection du sous-ensemble d'entités au niveau de l'arbre permettrait toujours la décorrélation souhaitée des arbres.
Ma théorie: je n'ai pas vu cela articulé ailleurs, mais il semble que la méthode du sous-espace aléatoire serait moins efficace pour obtenir des estimations de l'importance des caractéristiques. Pour obtenir des estimations d'importance variable, pour chaque arbre, les caractéristiques sont permutées au hasard une par une, et l'augmentation de la classification erronée ou de l'augmentation de l'erreur pour les observations hors du sac est enregistrée. Les variables pour lesquelles la classification erronée ou l'augmentation d'erreur résultant de cette permutation aléatoire est élevée sont celles qui ont la plus grande importance.
Si nous utilisons la méthode du sous-espace aléatoire, pour chaque arbre, nous ne considérons que des caractéristiques. Il peut falloir plusieurs arbres pour considérer tous les prédicteurs une seule fois. D'un autre côté, si nous considérons un sous-ensemble différent des entités à chaque nœud , nous considérerons chaque entité plus de fois après moins d'arbres, ce qui nous donnera une estimation plus robuste de l'importance de l'entité.p p m i p
Ce que j'ai regardé jusqu'à présent: Jusqu'à présent, j'ai lu les articles de Breiman et Ho, et j'ai effectué une large recherche en ligne pour comparer les méthodes sans trouver de réponse définitive. Notez qu'une question similaire a été posée auparavant. Cette question va un peu plus loin en incluant mes spéculations / travaux vers une solution possible. Je serais intéressé par toutes les réponses, citations pertinentes ou études de simulation comparant les deux approches. Si aucun n'est à venir, je prévois d'exécuter ma propre simulation en comparant les deux méthodes.