Je suis assez nouveau dans l'apprentissage automatique, les techniques CART et autres, et j'espère que ma naïveté n'est pas trop évidente.
Comment Random Forest gère-t-il les structures de données multi-niveaux / hiérarchiques (par exemple lorsque l'interaction entre niveaux est intéressante)?
C'est-à-dire, des ensembles de données avec des unités d'analyse à plusieurs niveaux hiérarchiques ( par exemple , les élèves imbriqués dans les écoles, avec des données sur les élèves et les écoles).
À titre d'exemple, considérons un ensemble de données à plusieurs niveaux avec des individus au premier niveau ( par exemple , avec des données sur le comportement électoral, la démographie, etc.) imbriqués dans les pays au deuxième niveau (avec des données au niveau national; par exemple , la population):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Disons que voted
c'est la réponse / variable dépendante et les autres sont des variables prédictives / indépendantes. Dans ces types de cas, les marges et les effets marginaux d'une variable (dépendance partielle) pour une variable de niveau supérieur ( par exemple , population
) pour différentes variables de niveau individuel, etc., pourraient être très intéressants. Dans un cas similaire à celui-ci, glm
c'est bien sûr plus approprié - mais quand il y a beaucoup de variables, interactions et / ou valeurs manquantes, et / ou jeux de données à très grande échelle, etc., ce glm
n'est pas si fiable.
Sous-questions: Random Forest peut-il gérer explicitement ce type de structure de données d'une manière ou d'une autre? S'il est utilisé indépendamment, quel type de biais introduit-il? Si la forêt aléatoire n'est pas appropriée, existe-t-il une autre méthode de type ensemble?
(Question La forêt aléatoire sur les données groupées est peut-être similaire, mais n'y répond pas vraiment.)