Où trouver un grand corpus de texte? [fermé]


16

Je recherche un grand (> 1000) corpus de texte à télécharger. De préférence avec des nouvelles du monde ou une sorte de rapports . Je n'en ai trouvé qu'un avec des brevets. Aucune suggestion?


Ce fil semble être hors sujet. Voir meta.stats.stackexchange.com/questions/1032/… .
whuber

Cette question semble être hors sujet car il s'agit de trouver un ensemble de données, plutôt que de faire une analyse statistique
Peter Flom - Réintégrer Monica

2
Eh bien, c'est gênant, car ce Q & A est vraiment utile.
Sideshow Bob

@guaka, veuillez ne pas supprimer de tels anciens messages pour des modifications mineures, en particulier un message qui est fermé. Il est vrai que notre préférence de style n'est pas d'avoir des "merci", mais pour quelque chose d'aussi mineur, nous le laisserions.
gung - Réintègre Monica

Réponses:




6

Le corpus de texte Reuters est un classique dans le domaine, et peut être trouvé ici


Ce n'est pas le corpus le plus intéressant (ou le plus divers). La licence est également restrictive par rapport à Wikileaks (documents américains du domaine public) ou wikinews.
ariddell

@ariddell, je suis d'accord, mais il est couramment utilisé dans les exemples d'introduction de la PNL, et il est suffisamment grand pour être utile à l'apprentissage mais assez petit pour être analysé sur un bon ordinateur portable.
richiemorrisroe



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.