J'essaye d'obtenir jusqu'à la vitesse avec R. Je veux finalement utiliser les bibliothèques R pour faire la classification de texte. Je me demandais simplement quelles sont les expériences des gens en ce qui concerne l'évolutivité de R quand il s'agit de faire une classification de texte.
Je suis susceptible de rencontrer des données dimensionnelles élevées (~ 300k dimensions). Je cherche à utiliser SVM et Random Forest en particulier comme algorithmes de classification.
Les bibliothèques R s'adapteraient-elles à la taille de mon problème?
Merci.
EDIT 1: Juste pour clarifier, mon ensemble de données est susceptible d'avoir 1000-3000 lignes (peut-être un peu plus) et 10 classes.
EDIT 2: Étant donné que je suis très nouveau à R, je demanderai que les affiches soient plus spécifiques dans la mesure du possible. Par exemple, si vous proposez un workflow / pipeline, assurez-vous de mentionner si possible les bibliothèques R impliquées dans chaque étape. Certains pointeurs supplémentaires (vers des exemples, des exemples de code, etc.) seraient la cerise sur le gâteau.
EDIT 3: Tout d'abord, merci à tous pour vos commentaires. Et deuxièmement, je m'excuse, j'aurais peut-être dû donner plus de contexte au problème. Je suis nouveau dans R mais pas tellement dans la classification des textes. J'ai déjà fait un prétraitement (stemming, suppression des mots vides, conversion tf-idf, etc.) sur une partie de mes données en utilisant le paquet tm , juste pour avoir une idée des choses. tm était si lent, même sur environ 200 documents, que je me suis inquiété de l'évolutivité. Ensuite, j'ai commencé à jouer avec FSelector et même cela a été très lent. Et c'est à ce moment-là que j'ai fait mon OP.
EDIT 4: Je viens de penser que j'ai 10 classes et environ ~ 300 documents de formation par classe, et je construis en fait la matrice termXdoc à partir de l'ensemble de la formation, ce qui entraîne une très grande dimensionnalité. Mais que diriez-vous de réduire chaque problème de classification 1 sur k en une série de problèmes de classification binaire? Cela réduirait considérablement le nombre de documents de formation (et donc la dimensionnalité) à chacune des étapes k-1, n'est-ce pas? Cette approche est-elle donc bonne? Comment se compare-t-elle en termes de précision à l'implémentation multi-classes habituelle?