J'ai passé trois jours à essayer tm
après avoir lu le projet de document d'un ami où il a exploré un corpus de texte avec UCINET, montrant des nuages de texte, des graphiques de réseau à deux modes et une décomposition en valeur unique (avec des graphiques, en utilisant Stata). J'ai rencontré un grand nombre de problèmes: sur Mac OS X, il y a des problèmes avec Java derrière des bibliothèques comme Snowball (stemming) ou Rgraphviz (graphiques).
Quelqu'un pourrait -il sur le point pas de paquets - je l' ai regardé tm
, wordfish
et wordscores
, et savoir au sujet NLTK - mais la recherche, si possible avec le code, sur des données textuelles, qui utilise avec succès tm
ou quelque chose d' autre pour analyser des données telles que les débats parlementaires ou des documents législatifs? Je n'arrive pas à trouver grand-chose sur la question, et encore moins de code à apprendre.
Mon propre projet est un débat parlementaire de deux mois, avec ces variables renseignées dans un fichier CSV: session parlementaire, orateur, groupe parlementaire, texte de l'intervention orale. Je recherche des divergences entre les orateurs et surtout entre les groupes parlementaires dans l'utilisation de termes rares et moins rares, par exemple "discours de sécurité" contre discours de "libertés civiles".