Le répertoire géographique ou toute autre option de fonctionnalité de taille intentionnellement fixe semble une approche très populaire dans les articles universitaires , lorsque vous avez un problème de taille finie, par exemple NER dans un corpus fixe, ou étiquetage POS ou autre. Je ne considérerais pas cela comme de la triche à moins que la seule fonctionnalité que vous utilisiez soit l'appariement de Gazetteer.
Cependant, lorsque vous entraînez tout type de modèle de PNL, qui repose sur un dictionnaire pendant la formation, vous pouvez obtenir des performances réelles bien inférieures à celles que vos tests initiaux auraient rapportées, à moins que vous ne puissiez inclure tous les objets d'intérêt dans le répertoire géographique (et pourquoi alors vous avez besoin de ce modèle?) parce que votre modèle entraîné dépendra de la fonctionnalité à un moment donné et, dans le cas où d'autres fonctionnalités seront trop faibles ou non descriptives, de nouveaux objets d'intérêt ne seraient pas reconnus.
Si vous utilisez un répertoire géographique dans vos modèles, vous devez vous assurer que cette fonctionnalité possède une fonction de compteur pour permettre au modèle de s'équilibrer elle-même, de sorte qu'une simple correspondance de dictionnaire ne sera pas la seule fonctionnalité de la classe positive (et plus important encore, le répertoire géographique devrait correspondent non seulement à des exemples positifs, mais aussi à des exemples négatifs).
Par exemple, supposons que vous ayez un ensemble complet de variations infinies de tous les noms de personnes, ce qui rend le NER général non pertinent, mais maintenant vous essayez de décider si l'objet mentionné dans le texte est capable de chanter. Vous vous baserez sur les fonctionnalités d'inclusion dans votre répertoire géographique Person, ce qui vous donnera beaucoup de faux positifs; ensuite, vous ajouterez une fonction centrée sur les verbes de " Is Subject of verb sing ", et cela vous donnera probablement de faux positifs de toutes sortes d'objets comme des oiseaux, votre ventre lorsque vous avez faim et un homme ivre qui penseil peut chanter (mais soyons honnêtes, il ne peut pas) - mais cette fonctionnalité centrée sur le verbe s'équilibrera avec votre répertoire géographique pour attribuer une classe positive de `` chanteur '' à des personnes et non à des animaux ou à d'autres objets. Cependant, cela ne résout pas le cas d'un artiste ivre.