Les forêts aléatoires (RF) sont une méthode compétitive de modélisation / extraction de données.
Un modèle RF a une sortie - la variable sortie / prédiction.
L'approche naïve de la modélisation de plusieurs sorties avec des RF serait de construire une RF pour chaque variable de sortie. Nous avons donc N modèles indépendants, et lorsqu'il existe une corrélation entre les variables de sortie, nous aurons une structure de modèle redondante / en double. Cela pourrait être très coûteux, en effet. De plus, en règle générale, plus de variables de modèle impliquent un modèle plus ajusté (moins de généralisation). Je ne sais pas si cela s'applique ici, mais c'est probablement le cas.
En principe, nous pourrions avoir un RF avec plusieurs sorties. La variable de prédiction est désormais un vecteur (n-tuple). Les nœuds de décision dans chaque arbre de décision divisent maintenant l'ensemble des vecteurs cible / prédiction sur la base d'un vecteur de seuil, je suppose que ce seuil est considéré comme un plan dans l'espace à n dimensions et que, par conséquent, nous pouvons déterminer de quel côté du seuil vecteur chacun des vecteurs cibles est activé.
La valeur de prédiction optimale pour chaque côté du fractionnement de décision est la moyenne (centroïde) calculée pour les vecteurs de chaque côté.
Trouver le point de partage optimal lorsque vous travaillez avec des variables uniques est trivial et rapide / efficace sur le plan des calculs. Pour un n-tuple, nous ne pouvons pas trouver le fractionnement optimal (ou du moins il devient impossible à calculer à mesure que N augmente), mais nous pouvons être en mesure de trouver un fractionnement presque optimal en utilisant une méthode de type Monte Carlo (ou un hybride de Monte Carlo et local traversée de gradient).
Est-ce que cela fonctionnerait réellement? Autrement dit, pourrait-il simplement cartographier les paires d'entraînement sans généraliser? Cette technique existe-t-elle déjà sous un nom différent?
Vous voudrez peut-être aussi examiner comment cela se rapporte aux réseaux neuronaux tels que les machines Boltzmann restreintes (RBM) et les réseaux de croyances profondes.