Je cherche à concevoir un système qui compte tenu d'un paragraphe de texte pourra le catégoriser et identifier le contexte:
- Est formé aux paragraphes de texte générés par l'utilisateur (comme les commentaires / questions / réponses)
- Chaque élément de l'ensemble de formation sera étiqueté avec. Ainsi, par exemple ("catégorie 1",, "paragraphe de texte")
- Il y aura des centaines de catégories
Quelle serait la meilleure approche pour construire un tel système? J'ai examiné quelques options différentes et voici une liste de solutions possibles. Word2Vec / NN est-il la meilleure solution pour le moment?
- Réseau de tenseur neuronal récursif alimenté avec des données Word2Vec moyennes
- RNTN et le vecteur de paragraphe ( https://cs.stanford.edu/~quocle/ paragraph_vector.pdf )?
- TF-IDF utilisé dans un réseau de croyances profondes
- TF-IDF et régression logistique
- Sac de mots et classification Naive Bayes