Existe-t-il une implémentation de forêt aléatoire R qui fonctionne bien avec des données très rares? J'ai des milliers ou des millions de variables d'entrée booléennes, mais seules des centaines environ seront VRAIES pour un exemple donné.
Je suis relativement nouveau dans R et j'ai remarqué qu'il existe un package 'Matrix' pour traiter les données rares, mais le package standard 'randomForest' ne semble pas reconnaître ce type de données. Si cela est important, les données d'entrée vont être produites en dehors de R et importées.
Aucun conseil? Je peux également étudier l'utilisation de Weka, Mahout ou d'autres packages.