Jeu de données pour la reconnaissance d'entités nommées sur du texte informel

18

Je recherche actuellement des ensembles de données étiquetés pour former un modèle pour extraire des entités nommées à partir de texte informel (quelque chose de similaire aux tweets). Parce que la capitalisation et la grammaire font souvent défaut dans les documents de mon jeu de données, je recherche des données hors domaine qui sont un peu plus "informelles" que les articles de journaux et les entrées de journaux que bon nombre des systèmes de reconnaissance d'entités nommés de pointe sont formé sur.

Des recommandations? Jusqu'à présent, je n'ai pu localiser que 50 000 jetons de Twitter publiés ici .

dataset nlp

— Madison May
source

2

Recommander de demander sur opendata.stackexchange.com

— Air

@Madison May. Avez-vous trouvé un ensemble de données? Je cherche quelque chose de similaire. Merci.

— ahoffer

J'ai dû me contenter du twitter ner corpus de U. Washington (lié à dans le post original).

— Madison

FYI Corpus de texte balisé (journaux anglais ou tout texte balisé)

— Franck Dernoncourt

obtenu un bon corpus anglais annoté?

— Achyuta nanda sahoo

6

Si je comprends bien, ce sont les propriétés que vous recherchez dans un exemple de jeu de données:

Données texte
Il doit être informel, c'est-à-dire avoir des fautes de frappe, de l'argot et, fondamentalement, quelque chose qui n'est pas édité par des professionnels
Quelque chose d'autre que Twitter (je ne vous en veux pas, Twitter est un exemple de source de données utile mais largement surutilisé dans l'exploration de texte)

Voici quelques recommandations:

Emails du corpus SpamAssassin - notez que les jeux de données "ham" (non-spam) et spam sont disponibles
ensemble de données microblogPCU de l'UCI, qui sont des données extraites des microblogs des utilisateurs de Sina Weibo - notez que les données textuelles brutes sont un mélange de chinois et d'anglais (vous pouvez effectuer une traduction automatique du chinois, filtrer en anglais uniquement ou l'utiliser) comme si)
Amazon Commerce examine l' ensemble de données de l'UCI
Dans l' ensemble de données bag-o-words , essayez d'utiliser les e-mails d'Enron
L' ensemble de données Twenty Newsgroups
Cette belle collection de spam SMS
Vous pouvez toujours extraire (extraire) vos propres données texte d'Internet; Je ne sais pas quel paquet langue ou statistiques que vous utilisez, mais des forfaits basés sur XPath sont disponibles dans R ( rvest, scrapeR, etc.) et Python pour y parvenir

— Hack-R
source

1

Certains de ces ensembles de données sont-ils cependant annotés avec des entités nommées? Je crois que c'est ce que OP recherchait.

— M. Phil

3

Vérifiez-les:

Référentiel de domaines de test pour l'extraction d'informations: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( miroir )

Lien mis à jour:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
source

1

Veuillez mettre à jour ces liens car aucun d'entre eux ne fonctionne plus.

— M. Phil

0

Certaines des sources que j'ai utilisées:

Le classique CONLL Corpus: CONLL Dataset
Une source Kaggle qui vaut la peine d'être essayée : Kaggle NER Corpus
OntoNotes version 5.0: Notes sur
Tâche de reconnaissance des bio-entités : Bio-entités
Un autre ensemble de données lié aux e-mails: Enron Email Dataset

Je pense que ces jeux de données seront d'une grande aide pour votre tâche

— Gyan Ranjan
source