Je prévois d'utiliser le classificateur scikit linear support vector machine (SVM) pour la classification de texte sur un corpus comprenant 1 million de documents étiquetés. Ce que je prévois de faire, c'est lorsqu'un utilisateur saisit un mot clé, le classificateur le classera d'abord dans une catégorie, puis une requête de récupération d'informations ultérieure se produira dans les documents de cette catégorie de catégorie. J'ai quelques questions:
- Comment puis-je confirmer que le classement ne prendra pas beaucoup de temps? Je ne veux pas que les utilisateurs passent du temps à attendre la fin d'un classement pour obtenir de meilleurs résultats.
- Est-ce que l'utilisation de la bibliothèque scikit de Python pour les sites Web / applications Web convient à cela?
- Quelqu'un sait-il comment amazon ou flipkart effectuent la classification des requêtes des utilisateurs, ou utilisent-ils une logique complètement différente?