Les méthodes d'ensemble basées sur des arbres telles que la forêt aléatoire et les dérivés subséquents (par exemple, la forêt conditionnelle), prétendent toutes être utiles dans les problèmes dits «petits n , grands p », pour identifier l'importance relative des variables. En effet, cela semble être le cas, mais ma question est de savoir jusqu'où cette capacité peut-elle être poussée? Peut-on avoir, disons 30 observations et 100 variables? Quel est le point de rupture d'une telle approche, et existe-t-il des règles empiriques décentes? Je préférerais et accepterais des réponses appuyées par des liens vers des preuves réelles (pas des conjectures), en utilisant des ensembles de données simulés ou réels. Je n'ai pas trouvé grand chose sur ce dernier ( ici et ici), donc vos pensées / conseils / (sur le sujet) suggestions de référence sont les bienvenus!