Données de sentiment pour Emoji

Pour expérimenter, nous aimerions utiliser les Emoji intégrés dans de nombreux Tweets comme données de vérité / formation au sol pour une analyse quantitative de sénitment simple. Les tweets sont généralement trop peu structurés pour que la PNL fonctionne correctement.

Quoi qu'il en soit, il y a 722 Emoji dans Unicode 6.0, et probablement 250 autres seront ajoutés dans Unicode 7.0.

Existe-t-il une base de données (comme par exemple SentiWordNet) qui contient des annotations de sentiment pour eux?

(Notez que SentiWordNet permet aussi des significations ambiguës . Considérez par exemple drôle , ce qui n'est pas seulement positif: "ça a un drôle de goût" n'est probablement pas positif ... il en va de même ;-)par exemple. Mais je ne pense pas que ce soit plus difficile pour Emoji que pour les mots normaux ...)

De plus, si vous avez de l'expérience avec leur utilisation pour l'analyse des sentiments, je serais intéressé de les entendre.

machine-learning classification parsing

— Erich Schubert
source

Ne croyez pas que quelque chose comme ça existe actuellement, mais j'adorerais que vous mettiez quelque chose en place pour cela!

— indico

Erich Schubert, je cherche exactement la même chose! Avez-vous eu la chance de trouver une ressource utile pour cela?

— saeed mehrabi

Réponses:

Au total, 972 emoji ne sont pas vraiment si gros pour ne pas pouvoir les étiqueter manuellement, mais je doute qu'ils fonctionneront comme une bonne vérité de terrain. Des sources comme Twitter sont pleines d'ironie, de sarcasme et d'autres paramètres délicats où les symboles émotionnels (tels que les emoji ou les émoticônes) signifient quelque chose de différent de l'interprétation normale. Par exemple, quelqu'un peut écrire "xxx a trompé ses clients, et maintenant ils sont eux-mêmes trompés! Ha ha ha!: D". C'est certainement un commentaire négatif, mais l'auteur est heureux de voir xxx entreprise en difficulté et ajoute ainsi une émoticône positive. Ces cas ne sont pas si fréquents, mais ne conviennent certainement pas à la vérité fondamentale.

L'approche beaucoup plus courante consiste à utiliser l'émoticône comme graine pour collecter un ensemble de données réel . Par exemple, dans cet article, les auteurs utilisent des émoticônes et des balises de hachage émotionnel pour saisir le lexique de mots utiles pour une classification ultérieure.

— ami
source

En fait, je ne suis pas d'accord. Puisque l'auteur aime qu'ils aient des ennuis, c'est un sentiment positif là-bas. C'est un commentaire négatif sur l'entreprise, mais néanmoins un sentiment positif de l'auteur. Dans ce scénario plus simple (je ne dis pas que c'est l'objectif complet), prédire quels emojis un utilisateur ajouterait à son message me semble une tâche raisonnable. En fait, vous pouvez construire de nombreux cas où les emoji seront essentiels. Considérez "Got f_cked :-)" par opposition à "Got f_cked. :-("

— Erich Schubert

Dans le cas où vous essayez d'estimer l'émotion d'une personne par opposition à son attitude envers un sujet, alors oui, cet exemple ne fonctionne pas. Mais il y en a bien d'autres. Le sarcasme est un cas courant. Considérez la phrase "oh ouais, vous êtes un vrai 'maître';)". L'homme peut saisir un contexte négatif, mais une émoticône positive indiquera une émotion positive. Mais je ne l'ai pas vraiment compris: voulez-vous extraire des informations subjectives de tweets ou simplement prédire des emojis possibles? Même si elles semblent similaires, la deuxième tâche ne concerne pas vraiment l'analyse des sentiments. Pas directement, du moins.

— ffriend

Le smiley "clin d'oeil" n'est généralement pas considéré comme "positif", mais "ironique" ... c'est pourquoi un bon dictionnaire tel que SentiWordNet a du sens. Si vous cherchez drôle dans SentiWordNet, cela a aussi plusieurs sens! sentiwordnet.isti.cnr.it/search.php?q=funny (Il n'est donc pas trivial de les annoter manuellement, car ce n'est pas aussi simple que positif / négatif; mais vous devriez faire la validation habituelle des accords inter-évaluateurs, etc.)

— Erich Schubert

Maintenant, je vois votre idée. Mais je ne pense pas vraiment que cela fonctionnera, simplement parce que (la plupart) des emojis ne sonnent pas vraiment comme de bons prédicteurs pour moi, et vous ne voulez explicitement pas utiliser d'autres fonctionnalités. Quoi qu'il en soit, ce n'est qu'une opinion basée sur mon expérience, seules les données peuvent donner de vraies réponses. Bonne chance!

— ffriend

Qui a dit que je ne voulais pas utiliser d'autres fonctionnalités? Mais pour ceux-ci, j'ai vu des bases de données ...

— Erich Schubert

J'ai trouvé ce dépôt Github utile (un bon début): https://github.com/wooorm/emoji-emotion Liste des emoji évalués pour la valence avec un entier entre moins cinq (négatif) et plus cinq (positif).

Voir la liste des emojis unicode pris en charge: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Notez que certains emoji reçoivent des polarités sans doute déroutantes, telles que stuck_out_tongue_closed_eyes (0), en raison de leur utilisation à la fois pour des émotions positives et négatives.

— Tal Weiss
source