J'essaie de regrouper, par exemple, des chaînes de programmation avec d'autres chaînes de programmation, des chaînes de physique avec d'autres chaînes de physique, etc., pour un large éventail de sujets. Malgré l'aspect linguistique théorique flagrant du problème, je cherche à le faire en utilisant la programmation / le logiciel.
Le récapitulatif: étant donné un grand nombre de chaînes, comment pourrais-je procéder pour les regrouper par thème sémantique?
L'application particulière: j'ai ~ 200k questions triviales que je voudrais classer en groupes communs (voitures, ordinateurs, politique, Canada, nourriture, Barack Obama, etc.).
Ce que j'ai examiné: Wikipédia a une liste de boîtes à outils de traitement du langage naturel (en supposant que ce que j'essaie de faire s'appelle en fait NLP), j'ai donc examiné quelques-unes, mais aucune ne semble faire quelque chose de similaire à mes besoins.
Notes: Il a été souligné que cela nécessite des connaissances supplémentaires (par exemple, une Porsche étant une voiture, C ++ étant un langage de programmation). Je suppose alors que des données de formation sont nécessaires, mais si je n'ai que la liste des questions et réponses, comment puis-je générer des données de formation? Et puis comment utiliser les données d'entraînement?
Plus de notes: Si le formatage actuel de mon aide Q&R (bien qu'il ressemble à JSON, c'est essentiellement un fichier texte brut):
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
Mais avant que quelqu'un souligne qu'il existe déjà une catégorie, notez qu'il y a environ 200 000 questions et réponses comme celle-ci, et essentiellement autant de «catégories». J'essaie de les regrouper en groupes plus larges comme ceux énumérés ci-dessus. De plus, cette mise en forme peut être modifiée très facilement pour toutes les questions, je le fais par programmation.
Et plus de notes: je ne sais pas vraiment combien de catégories j'aurai besoin (au moins 10-20), parce que je n'ai pas lu toutes les questions moi-même. Je m'attendais en partie à ce que le nombre fini soit déterminé d'une manière ou d'une autre lors de la catégorisation. Dans tous les cas, je peux toujours créer manuellement un certain nombre de catégories.