Je recherche un grand (> 1000) corpus de texte à télécharger. De préférence avec des nouvelles du monde ou une sorte de rapports . Je n'en ai trouvé qu'un avec des brevets. Aucune suggestion?
Je recherche un grand (> 1000) corpus de texte à télécharger. De préférence avec des nouvelles du monde ou une sorte de rapports . Je n'en ai trouvé qu'un avec des brevets. Aucune suggestion?
Réponses:
Les textes de Wikileaks ne vous conviennent pas?
Et les wikinews ? Voici le dernier vidage de base de données que j'ai pu trouver: http://dumps.wikimedia.org/enwikinews/20111120/
Vous voulez probablement la version «Toutes les pages, versions actuelles uniquement».
Le corpus de texte Reuters est un classique dans le domaine, et peut être trouvé ici
http://endb-consolidated.aihit.com/datasets.htm contient 10 000 sociétés avec des descriptions textuelles
Si la récence n'est pas un problème, vous pouvez essayer
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
et il existe d'autres ensembles de données beaucoup plus similaires dans infochimp en fonction de votre budget.
Cordialement, Andy.
Si vous voulez des n-grammes précalculés, vous pouvez essayer l'archive Google Books: