Ayant beaucoup de documents texte (en langage naturel, non structurés), quelles sont les façons possibles de les annoter avec des métadonnées sémantiques? Par exemple, considérons un court document:
I saw the company's manager last day.
Pour pouvoir en extraire des informations, celles-ci doivent être annotées avec des données supplémentaires pour être moins ambiguës. Le processus de recherche de telles métadonnées n'est pas en cause, alors supposez que cela se fasse manuellement. La question est de savoir comment stocker ces données de manière à ce qu'une analyse plus approfondie puisse être effectuée de manière plus pratique / efficace?
Une approche possible consiste à utiliser des balises XML (voir ci-dessous), mais cela semble trop verbeux, et il existe peut-être de meilleures approches / directives pour stocker ces métadonnées sur des documents texte.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.