Il y a un problème que nous essayons de résoudre où nous voulons faire une recherche sémantique sur notre ensemble de données, c'est-à-dire que nous avons des données spécifiques au domaine (exemple: phrases parlant d'automobiles)
Nos données ne sont qu'un tas de phrases et ce que nous voulons, c'est donner une phrase et récupérer les phrases qui sont:
- Semblable à cette phrase
- A une partie de phrase similaire à la phrase
- Une phrase qui a des significations contextuellement similaires
Permettez-moi d'essayer de vous donner un exemple, supposons que je recherche l'expression "Buying Experience", je devrais obtenir les phrases comme:
- Je n'ai jamais pensé que l'achat d'une voiture pouvait prendre moins de 30 minutes pour signer et acheter.
J'ai trouvé une voiture que j'aimais et le processus d'achat était
simple et facileJe détestais absolument faire du shopping, mais aujourd'hui je suis content de l'avoir fait
Je veux insister sur le fait que nous recherchons une similitude contextuelle et pas seulement une recherche de mots par force brute.
Si la phrase utilise des mots différents, elle devrait également pouvoir la trouver.
Des choses que nous avons déjà essayées:
Recherche sémantique ouverte Le problème auquel nous avons été confrontés ici est de générer une ontologie à partir des données dont nous disposons, ou pour cela de rechercher l'ontologie disponible dans différents domaines de notre intérêt.
Elastic Search (BM25 + Vectors (tf-idf)), nous avons essayé ceci où il donnait quelques phrases mais la précision n'était pas terrible. La précision était également mauvaise. Nous avons essayé contre un ensemble de données organisé par l'homme, il n'a pu obtenir que 10% des phrases seulement.
Nous avons essayé différentes intégrations comme celles déjà mentionnées dans les transformateurs de phrases et avons également examiné l' exemple et essayé d'évaluer par rapport à notre ensemble organisé par les humains et qui avait également une très faible précision.
Nous avons essayé ELMO . C'était une précision meilleure mais toujours inférieure à ce que nous attendions et il y a une charge cognitive pour décider de la valeur de cosinus en dessous de laquelle nous ne devrions pas considérer les phrases. Cela s'applique même au point 3.
Toute aide serait appréciée. Merci beaucoup pour l'aide à l'avance