Échantillonnage MCMC de l'espace de l'arbre de décision par rapport à la forêt aléatoire


11

Une forêt aléatoire est une collection d' arbres de décision formés en sélectionnant de manière aléatoire uniquement certaines fonctionnalités avec lesquelles construire chaque arbre (et parfois en ensachant les données d'entraînement). Apparemment, ils apprennent et se généralisent bien. Quelqu'un a-t-il effectué un échantillonnage MCMC de l'espace de l'arbre de décision ou les a-t-il comparés à des forêts aléatoires? Je sais qu'il pourrait être plus coûteux en termes de calcul d'exécuter le MCMC et de sauvegarder tous les arbres échantillonnés, mais je m'intéresse aux caractéristiques théoriques de ce modèle, pas aux coûts de calcul. Ce que je veux dire est quelque chose comme ça:

  1. Construire un arbre de décision aléatoire (il fonctionnerait probablement horriblement)
  2. Calculer la probabilité de l'arbre avec quelque chose comme , ou peut-être ajouter un P p r i o r ( T r e e ) terme.P(Tree|unetune)P(unetune|Tree)Pprjeor(Tree)
  3. Choisissez une étape aléatoire pour changer l'arbre et sélectionnez en fonction de la probabilité .P(Tree|unetune)
  4. Toutes les N étapes, enregistrez une copie de l'arborescence actuelle
  5. Revenir à 3 pour quelques gros N * M fois
  6. Utilisez la collection de M arbres enregistrés pour faire des prédictions

Est-ce que cela donnerait une performance similaire à Random Forests? Notez qu'ici, nous ne jetons pas de bonnes données ou fonctionnalités à aucune étape contrairement aux forêts aléatoires.


2
Je ne sais pas si c'est exactement le genre de procédure que vous esquissez, mais il y a BART . Voici un lien vers un PDF
joran

Réponses:



4

Malheureusement, Chipman et al. dans leur approche Bayesian CART, extraire uniquement l'arbre le plus probable. Ils n'ont jamais essayé de faire la moyenne sur les arbres et de comparer les performances à Random Forest et Extra-Trees.

Je viens de lire l'article BART de Chipman. Si je comprends bien, il s'agit d'une moyenne bayésienne de K échantillons sur une collection de m arbres. Il est intéressant à bien des égards et semble très bien fonctionner. Lorsque m = '1', il s'agit d'une simple moyenne bayésienne de K échantillons de 1 arbre, provenant de la partie postérieure. Cependant, peu de tests ont été effectués sur cet aspect particulier. Et je serais toujours intéressé de savoir comment la forêt aléatoire ou les extra-arbres se comparent au vrai modèle Bayes.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.