J'ai un corpus de texte avec un sujet correspondant. Par exemple "A rapper Tupac was shot in LA"
, il a été étiqueté comme ["celebrity", "murder"]
. Donc, fondamentalement, chaque vecteur d'entités peut avoir plusieurs étiquettes (pas la même quantité. Le premier vecteur d'entités peut avoir 3 étiquettes, la seconde 1, la troisième 5).
Si je n'avais qu'une seule étiquette correspondant à chaque texte, j'essaierais un classificateur Naive Bayes , mais je ne sais pas vraiment comment procéder si je peux avoir plusieurs étiquettes.
Existe-t-il un moyen de transformer Naive Bayes en problème de classification multi-étiquettes (s'il existe une meilleure approche - veuillez me le faire savoir)?
PS peu de choses sur les données que j'ai.
- environ 10 000 éléments dans l'ensemble de données
- le texte est d'environ 2-3 phrases
- maximum 7 étiquettes par texte