Je recherche actuellement des ensembles de données étiquetés pour former un modèle pour extraire des entités nommées à partir de texte informel (quelque chose de similaire aux tweets). Parce que la capitalisation et la grammaire font souvent défaut dans les documents de mon jeu de données, je recherche des données hors domaine qui sont un peu plus "informelles" que les articles de journaux et les entrées de journaux que bon nombre des systèmes de reconnaissance d'entités nommés de pointe sont formé sur.
Des recommandations? Jusqu'à présent, je n'ai pu localiser que 50 000 jetons de Twitter publiés ici .