Dans quelles circonstances la lemmatisation n'est-elle pas une étape conseillée lorsque vous travaillez avec des données texte?

Sans tenir compte des contraintes de calcul possibles, existe-t-il des applications générales où la lemmatisation serait une étape contre-productive lors de l'analyse des données textuelles?

Par exemple, la lemmatisation serait-elle quelque chose qui ne se fait pas lors de la construction d'un modèle contextuel?

Pour référence, la lemmatisation par dictinory.com est l'acte de regrouper les formes fléchies de (un mot) pour l'analyse en un seul élément.

Par exemple, le mot «cuisinier» est le lemme du mot «cuisiner». L'acte de lemmatisation consiste, par exemple, à remplacer le mot cuisine par cuisinier après avoir symbolisé vos données de texte. De plus, le mot «pire» a «mauvais» comme lemme et, comme l'exemple précédent, remplacer le mot «pire» par «mauvais» est l'action de la lemmatisation.

nlp data-cleaning

— Zer0k
source

Je pense que cette question serait améliorée avec une brève description de ce qu'est la lemmatisation

— kbrose

@kbrose Très bien, je peux ajouter une courte description. Merci pour la suggestion.

— Zer0k

Merci! Question interessante. Il y a des choses simples comme une partie du balisage de la parole qui seraient définitivement affectées par la lemmatisation. Curieux de voir s'il y en a plus

— kbrose

Tâches PNL qui seraient affectées par la lemmatisation:

1) Classification tendue

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

La séquence de caractères à la fin des verbes peut vous aider dans cette tâche. Les verbes cuits et cuisiniers diffèrent aux derniers caractères éd et s respectivement.

Avec la lemmatisation, cette information est perdue. Les deux verbes deviennent cuisinier , ce qui fait que les deux phrases semblent (dans ce cas) au présent.

2) Identification de l'auteur

Donné

un ensemble de documents $\mathcal{P}$ écrit par l'auteur $a$ ,
un ensemble de documents $\mathcal{Q}$ écrit par l'auteur $b$ ,
un ensemble de documents $\mathcal{S}$ écrit par l'un ou l'autre auteur $a$ ou $b$ ,

classer si un document $s\in\mathcal{S}$ est écrit par l'auteur $a$ ou $b$ .

Une façon d'y parvenir est de regarder l'histogramme des mots présents dans $s$ et le comparer aux documents de $\mathcal{P}$ et $\mathcal{Q}$ et sélectionnez le plus similaire.

Cela fonctionne parce que différents auteurs utilisent certains mots avec des fréquences différentes. Cependant, en utilisant la lemmatisation, vous déformez ces fréquences, ce qui nuit aux performances de votre modèle.

— Bruno Lubascher
source

Donc, fondamentalement, lorsque la structure et le style de la phrase / du document sont pertinents, la lemmatisation est quelque chose de préjudiciable. Ai-je bien compris cela?

— Zer0k

@ Zer0k, correct. Lorsque les caractéristiques importantes sont granulaires sur les mots, vous ne voulez pas de lemmatisation. Si vous avez des tâches de niveau supérieur, par exemple, l'analyse des sentiments, vous n'avez pas besoin de cette granularité. "C'est le pire restaurant" ou "C'est le mauvais restaurant", vous donneront tous deux un sentiment négatif .

— Bruno Lubascher

J'ai peur de ne pas être d'accord avec l'exemple d'identification de l'auteur. Surtout avec des textes courts, la lemmatisation aide beaucoup. Sinon, les vecteurs de caractéristiques sont trop clairsemés.

— Claude

@Claude, pouvez-vous développer un peu cela? Que définissez-vous comme texte court?

— Zer0k

@ Zer0k 200 jetons ou jusqu'à 1000 environ.

— Claude