La forêt aléatoire convient-elle à de très petits ensembles de données?


13

J'ai un ensemble de données comprenant 24 lignes de données mensuelles. Les caractéristiques sont le PIB, les arrivées aux aéroports, le mois et quelques autres. La variable dépendante est le nombre de visiteurs d'une destination touristique populaire. Random Forest conviendrait-il à un tel problème?

Les données ne sont pas publiques, je ne peux donc pas poster d'échantillon.


Généralement, la seule restriction sur la forêt aléatoire est que votre nombre d'entités doit être assez important - la première étape de RF est de choisir des entités 1 / 3n ou sqrt (n) pour construire un arbre (selon la tâche, la régression / la classification). Donc, si vous avez beaucoup de fonctionnalités, utilisez RF même sur de petits ensembles de données - il n'y a pas d'algorithme qui fonctionne vraiment bien sur de petits ensembles de données, donc vous ne perdez rien.
Demidov allemand

Vous êtes dans la fourchette basse. La RF fonctionnera, mais n'apprendra probablement pas des choses beaucoup plus complexes que ce que vous pourriez réaliser en mettant en vedette les données brutes. Cela aide, si vos données sont très silencieuses. De 40 à 50 échantillons, il commence à s'améliorer. 500 bons. 5000 génial.
Soren Havelund Welling du

pour la régression, la profondeur d'arbre possible est limitée par minnode = 5, ainsi vos échantillons ne seront en moyenne pas divisés plus de 2 fois [[24 -> (1) 12 -> (2) 6.]] Y compris la limitation hâtive, le le modèle aurait du mal à saisir tout effet d'interaction ou même simple effet non linéaire. Vous pouvez jouer avec minnode et mtry, mais vous ne devriez le faire que si vos données sont pratiquement sans bruit. Le potentiel sur les conclusions ajustées serait le revers. Vous avez obtenu que la structure du modèle ressemble à une fonction pas à pas grossièrement lissée.
Soren Havelund Welling du


Pour les petits ensembles de données, utilisez la technique de validation croisée. Pour plus d'informations, stats.stackexchange.com/questions/19048/…
Asif Khan

Réponses:


4

La forêt aléatoire est essentiellement un rééchantillonnage bootstrap et des arbres de décision de formation sur les échantillons, donc la réponse à votre question doit répondre à ces deux.

Le rééchantillonnage bootstrap n'est pas un remède pour les petits échantillons . Si vous n'avez que vingt-quatre observations dans votre ensemble de données, alors chacun des échantillons prélevés avec remplacement à partir de ces données ne comprendra pas plus de vingt-quatre valeurs distinctes. Mélanger les cas et ne pas en dessiner ne changerait pas grand-chose à votre capacité à apprendre quelque chose de nouveau sur la distribution sous-jacente. Un petit échantillon est donc un problème pour le bootstrap.

Les arbres de décision sont formés en divisant les données conditionnellement sur les variables prédictives, une variable à la fois, pour trouver les sous-échantillons qui ont le plus grand pouvoir discriminant. Si vous n'avez que vingt-quatre cas, dites que si vous avez de la chance et que toutes les divisions étaient de même taille, alors avec deux divisions, vous vous retrouveriez avec quatre groupes de six cas, avec des divisions d'arbres, avec huit groupes de trois. Si vous avez calculé des moyennes conditionnelles sur les échantillons (pour prédire des valeurs continues dans des arbres de régression ou des probabilités conditionnelles dans des arbres de décision), vous ne baseriez votre conclusion que sur ces quelques cas! Ainsi, les sous-échantillons que vous utiliseriez pour prendre les décisions seraient encore plus petits que vos données d'origine.

Avec de petits échantillons, il est généralement judicieux d' utiliser des méthodes simples . De plus, vous pouvez rattraper le petit échantillon en utilisant des a priori informatifs dans un cadre bayésien (si vous avez des connaissances raisonnables hors données sur le problème), vous pouvez donc envisager d'utiliser un modèle bayésien sur mesure.


1

D'une part, il s'agit d'un petit ensemble de données et la forêt aléatoire est gourmande en données.

D'un autre côté, peut-être que quelque chose vaut mieux que rien. Il n'y a rien de plus à dire que "Essayez-le et voyez". Vous pouvez décider si un modèle particulier est "bon" ou non; de plus, nous ne pouvons pas vous dire si un modèle est adapté à un usage particulier (et vous ne le voudriez pas non plus - cela ne nous coûte rien si nous nous trompons!).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.