J'essaie de classer les messages en différentes catégories à l'aide d'un SVM. J'ai compilé une liste de mots / symboles souhaitables à partir de l'ensemble de formation.
Pour chaque vecteur, qui représente un message, je mets la ligne correspondante à 1
si le mot est présent:
"corpus" est: [mary, little, lamb, star, twinkle]
premier message: "mary avait un petit agneau" -> [1 1 1 0 0]
deuxième message: "petite étoile scintillante" -> [0 1 0 1 1]
Je pense que c'est une configuration assez courante avec SVM, mais ma question est, avec des milliers de mots dans l'ensemble, que se passe-t-il s'il n'y a que 1-2 mots par message qui apparaissent réellement? La dépendance linéaire de mon ensemble de vecteurs d'apprentissage va-t-elle affecter négativement la capacité de l'algorithme à converger?
flexmix
- cependant, j'ai "Learn R" sur mon calendrier depuis quelques années maintenant!