Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer.
Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports peuvent éventuellement être liés à des informations administratives individuelles. Je veux extraire des informations de ces rapports qui peuvent être utilisées dans l'analyse quantitative, et idéalement plus que de simples recherches par mot clé / expression régulière à l'aide de grep
/ awk
etc.
Quelle est l'utilité du traitement du langage naturel pour cela? Quelles sont les autres approches utiles d'exploration de texte? D'après ce que je comprends, c'est un vaste domaine, et très probablement certains des rapports devraient être transformés pour être utilisés comme corpus. Vaut-il la peine d'investir du temps pour se familiariser avec la littérature et les méthodes? Peut-il être utile et quelque chose de similaire a-t-il été fait auparavant? Est-ce que cela en vaut la peine en termes de récompenses, c'est-à-dire que je peux extraire des informations potentiellement utiles en utilisant la PNL pour une étude empirique en économie?
Il y a peut-être un financement pour embaucher quelqu'un pour lire et préparer certains des rapports. Il s'agit d'un projet plus vaste et il est possible de demander plus de financement. Je peux fournir plus de détails sur le sujet si cela est strictement nécessaire. Une complication potentielle est que la langue est l'allemand, pas l'anglais.
Concernant les diplômes, je suis majoritairement formé en économétrie, et possède quelques connaissances en statistiques computationnelles au niveau de Hastie et al. livre. Je connais Python, R, Stata et je pourrais probablement me familiariser rapidement avec Matlab. Compte tenu des bibliothèques, je suppose que Python est l'outil de choix pour cela. Pas de formation du tout sur les méthodes qualitatives si cela est pertinent, mais je connais des personnes à qui je pourrais m'adresser.
Je suis heureux de toute contribution à ce sujet, c'est-à-dire si cela est potentiellement utile, si oui, où commencer la lecture et sur quels outils se concentrer en particulier.