J'ai un ensemble de données avec 5 818 446 lignes et 51 colonnes, dont 50 sont des prédicteurs. Ma réponse est quantitative, je suis donc intéressé par un modèle de régression. J'essaie d'adapter une forêt aléatoire à mes données en utilisant le package caret. Cependant, je n'ai pas assez de RAM pour le faire.
J'ai cherché des solutions à mon problème. En plus d'avoir un ordinateur plus puissant, il semble que je puisse utiliser l' ensachage pour résoudre mon problème. Par conséquent, mon idée est la suivante:
Créer des partitions de formation et de test à partir de mon jeu de données d'origine
Échantillon avec remplacement d'une petite partie de mon ensemble de données de train dans R (disons 1% de celui-ci, soit 58 185 lignes)
Adapter une forêt aléatoire à cette petite partie des données
Enregistrer le résultat du modèle
Répétez les étapes 2 à 4 1000 fois
Combinez ces 1 000 modèles obtenus aux étapes 2 à 5
Cependant, la forêt aléatoire elle-même utilise l'ensachage pour adapter le modèle aux données et donc je ne suis pas sûr si mon approche est correcte. J'ai donc quelques questions à vous poser:
i) Mon approche est-elle correcte? Je veux dire, comme je n'ai pas assez de RAM dans mon système, est-il correct d'adapter de nombreux modèles de forêt aléatoires différents à différents morceaux de données et de les combiner ensuite?
ii) En supposant que mon approche est correcte, 1% des données est une bonne règle empirique pour ma taille d'échantillon? Même avec 1% des données, j'ai encore.
iii) En supposant que mon approche est correcte, y a-t-il un certain nombre de réplications pour les modèles que je devrais utiliser? J'ai pensé à 1000 pour des raisons.
l1
régularisation, ce qui réduit généralement les poids des composants insignifiants à presque presque zéro, de sorte que vous pouvez voir en inspectant les arbres que vous devez conserver.