Je travaille sur une application qui nécessite de créer une très grande base de données de n-grammes qui existent dans un grand corpus de texte.
J'ai besoin de trois types d'opérations efficaces: recherche et insertion indexées par le n-gramme lui-même, et interrogation pour tous les n-grammes qui contiennent un sous-n-gramme.
Cela me semble que la base de données devrait être une gigantesque arborescence de documents et que les bases de données de documents, par exemple Mongo, devraient être en mesure de bien faire le travail, mais je ne les ai jamais utilisées à grande échelle.
Connaissant le format de question Stack Exchange, je voudrais préciser que je ne demande pas de suggestions sur des technologies spécifiques, mais plutôt un type de base de données que je devrais rechercher pour implémenter quelque chose comme ça à grande échelle.