Je voudrais créer une forêt aléatoire en utilisant le processus suivant:
- Construisez un arbre sur un échantillon aléatoire des données et des fonctionnalités en utilisant le gain d'informations pour déterminer les divisions
- Terminer un nœud feuille s'il dépasse une profondeur prédéfinie OU toute scission entraînerait un nombre de feuilles inférieur à un minimum prédéfini
- Plutôt que d'attribuer une étiquette de classe pour chaque arbre, attribuez la proportion de classes dans le nœud feuille
- Arrêtez de construire des arbres après la construction d'un nombre prédéfini
Cela va à l'encontre du processus traditionnel de la forêt aléatoire de deux manières. Premièrement, il utilise des arbres élagués qui attribuent des proportions plutôt que des étiquettes de classe. Et deuxièmement, le critère d'arrêt est un nombre prédéterminé d'arbres plutôt qu'une estimation d'erreur hors du sac.
Ma question est la suivante:
Pour le processus ci-dessus qui génère N arbres, puis-je ajuster un modèle en utilisant la régression logistique avec la sélection LASSO? Quelqu'un a-t-il de l'expérience en ajustant un classificateur de forêt aléatoire et en post-traitement avec LASSO logistique?
Le cadre ISLE mentionne l'utilisation de LASSO comme étape de post-traitement pour les problèmes de régression mais pas les problèmes de classification. De plus, je n'obtiens aucun résultat utile lors de la recherche sur le "lasso de forêt aléatoire".