Ma question concerne la classification binaire, disons séparer les bons clients des mauvais clients, mais pas la régression ou la classification non binaire. Dans ce contexte, une forêt aléatoire est un ensemble d'arbres de classification. Pour chaque observation, chaque arbre vote «oui» ou «non», et le vote moyen de tous les arbres est la probabilité finale pour la forêt.
Ma question concerne la modification du comportement des arbres sous-jacents: comment pouvons-nous modifier la fonction randomForest (du package randomForest de R) afin que chaque arbre vote une décimale au lieu d'un binaire oui / non. Pour mieux comprendre ce que je veux dire par décimale, réfléchissons au fonctionnement des arbres de décision.
Un arbre de décision entièrement développé a 1 bonne ou 1 mauvaise instance dans ses nœuds terminaux. Supposons que je limite la taille du nœud terminal à 100. Ensuite, les nœuds terminaux vont ressembler à:
Node1 = 80 mauvais, 20 bons
Node2 = 51 mauvais, 49 bons
Node3 = 10 mauvais, 90 bons
Remarquez, même si Node1 et Node2 votent «mauvais», leur «force de méchanceté» est très différente. C'est ce que je recherche. Au lieu de les faire produire 1 ou 0 (ce qui est le comportement par défaut), peut-on modifier le package R pour qu'ils votent 80/100, 51/100, 10/100, etc.?