Une forêt aléatoire est une collection d' arbres de décision formés en sélectionnant de manière aléatoire uniquement certaines fonctionnalités avec lesquelles construire chaque arbre (et parfois en ensachant les données d'entraînement). Apparemment, ils apprennent et se généralisent bien. Quelqu'un a-t-il effectué un échantillonnage MCMC de l'espace de l'arbre de décision ou les a-t-il comparés à des forêts aléatoires? Je sais qu'il pourrait être plus coûteux en termes de calcul d'exécuter le MCMC et de sauvegarder tous les arbres échantillonnés, mais je m'intéresse aux caractéristiques théoriques de ce modèle, pas aux coûts de calcul. Ce que je veux dire est quelque chose comme ça:
- Construire un arbre de décision aléatoire (il fonctionnerait probablement horriblement)
- Calculer la probabilité de l'arbre avec quelque chose comme , ou peut-être ajouter un P p r i o r ( T r e e ) terme.
- Choisissez une étape aléatoire pour changer l'arbre et sélectionnez en fonction de la probabilité .
- Toutes les N étapes, enregistrez une copie de l'arborescence actuelle
- Revenir à 3 pour quelques gros N * M fois
- Utilisez la collection de M arbres enregistrés pour faire des prédictions
Est-ce que cela donnerait une performance similaire à Random Forests? Notez qu'ici, nous ne jetons pas de bonnes données ou fonctionnalités à aucune étape contrairement aux forêts aléatoires.