J'ai lu les articles suivants qui ont répondu à la question que j'allais poser:
Utilisez le modèle Random Forest pour faire des prédictions à partir des données des capteurs
Arbre de décision pour la prédiction de sortie
Voici ce que j'ai fait jusqu'à présent: j'ai comparé la régression logistique aux forêts aléatoires et la logistique RF surperformée. Maintenant, les chercheurs en médecine avec qui je travaille veulent transformer mes résultats RF en un outil de diagnostic médical. Par exemple:
Si vous êtes un homme asiatique âgé de 25 à 35 ans, que votre vitamine D est inférieure à xx et votre tension artérielle supérieure à xx, vous avez 76% de chances de développer une maladie xxx.
Cependant, RF ne se prête pas à de simples équations mathématiques (voir les liens ci-dessus). Voici donc ma question: quelles idées avez-vous tous pour utiliser RF pour développer un outil de diagnostic (sans avoir à exporter des centaines d'arbres).
Voici quelques-unes de mes idées:
- Utilisez RF pour la sélection des variables, puis utilisez la logistique (en utilisant toutes les interactions possibles) pour faire l'équation de diagnostic.
- D'une manière ou d'une autre, agréger la forêt RF en un «méga-arbre», qui fait en moyenne la répartition des nœuds entre les arbres.
- Semblable à # 2 et # 1, utilisez RF pour sélectionner des variables (disons m variables au total), puis créez des centaines d'arbres de classification, qui utilisent tous chaque m variable, puis choisissez le meilleur arbre unique.
D'autres idées? De plus, faire # 1 est facile, mais avez-vous des idées sur la façon d'implémenter # 2 et # 3?