Comment mesurer la dispersion des données de fréquence des mots?


10

Comment puis-je quantifier la quantité de dispersion dans un vecteur de décompte de mots? Je recherche une statistique qui sera élevée pour le document A, car elle contient de nombreux mots différents qui se produisent rarement, et faible pour le document B, car elle contient un mot (ou quelques mots) qui se produisent souvent.

Plus généralement, comment mesure-t-on la dispersion ou "spread" des données nominales?

Existe-t-il un moyen standard de le faire dans la communauté d'analyse de texte?

entrez la description de l'image ici

entrez la description de l'image ici

Réponses:


10

pipia[ln(1/pi)]b

  1. a=0,b=0

  2. a=2,b=01pi21/pi2k1/kpi2=k(1/k)2=1/kk

  3. a=1,b=1Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

La formulation se trouve dans IJ Good. 1953. Les fréquences de population des espèces et l'estimation des paramètres de population. Biometrika 40: 237-264. www.jstor.org/stable/2333344 .

D'autres bases pour le logarithme (par exemple 10 ou 2) sont également possibles selon le goût ou le précédent ou la commodité, avec de simples variations implicites pour certaines formules ci-dessus.

Les redécouvertes (ou réinventions) indépendantes de la deuxième mesure sont multiples dans plusieurs disciplines et les noms ci-dessus sont loin d'être une liste complète.

Lier ensemble des mesures communes dans une famille n'est pas seulement légèrement attrayant sur le plan mathématique. Il souligne qu'il existe un choix de mesures en fonction des poids relatifs appliqués aux articles rares et communs, et réduit ainsi toute impression de tacite créée par une petite profusion de propositions apparemment arbitraires. La littérature dans certains domaines est affaiblie par des articles et même des livres fondés sur des affirmations ténues selon lesquelles une mesure privilégiée par les auteurs est la meilleure mesure que tout le monde devrait utiliser.

Mes calculs indiquent que les exemples A et B ne sont pas si différents, sauf sur la première mesure:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Certains peuvent être intéressés de noter que le Simpson nommé ici (Edward Hugh Simpson, 1922-) est le même que celui honoré par le nom de paradoxe de Simpson. Il a fait un excellent travail, mais il n'a pas été le premier à découvrir une chose pour laquelle il est nommé, ce qui est à son tour le paradoxe de Stigler, qui à son tour ....)


C'est une réponse brillante (et beaucoup plus facile à suivre que le bon article de 1953;)). Je vous remercie!
dB '

7

Je ne sais pas s'il existe une façon courante de procéder, mais cela me semble analogue aux questions d'inégalité en économie. Si vous traitez chaque mot en tant qu'individu et que leur nombre est comparable au revenu, vous souhaitez comparer la position du sac de mots entre les extrêmes de chaque mot ayant le même nombre (égalité complète) ou un mot ayant tous les nombres et tout le monde zéro. La complication étant que les "zéros" n'apparaissent pas, vous ne pouvez pas avoir moins d'un compte de 1 dans un sac de mots comme défini habituellement ...

Le coefficient de Gini de A est de 0,18 et de B de 0,43, ce qui montre que A est plus "égal" que B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Je suis également intéressé par d'autres réponses. De toute évidence, la variance démodée des nombres serait également un point de départ, mais il faudrait l'adapter d'une manière ou d'une autre pour le rendre comparable pour des sacs de différentes tailles et donc différents nombres moyens par mot.


Bon appel - le coefficient de Gini a également été ma première pensée! Cependant, en recherchant sur google scholar, je n'ai pas trouvé beaucoup de précédents pour l'utiliser avec des données texte. Je me demande si la communauté de récupération de PNL / texte a une mesure plus standard pour ce genre de chose ...
dB '29

Attention: d'après mon compte, Gini a été donné comme nom à au moins trois mesures différentes. L'histoire est défendable dans chaque cas, mais les gens ont besoin de voir la formule utilisée.
Nick Cox

1
Bon point @NickCox - Je pensais à celui-ci, utilisé pour l'inégalité, qui je pense est l'utilisation la plus courante: ellisp.github.io/blog/2017/08/05/weighted-gini J'ai vu différentes méthodes de l'estimer / le calculer mais tous avec la même définition de base, dans ce contexte. Je sais que les gens du machine learning l'utilisent pour quelque chose de différent, mais je n'ai pas vu leur excuse ...
Peter Ellis

1
@dB 'J'ai trouvé cet article sur l'utilisation de Gini dans une application textuelle: procedure.mlr.press/v10/sanasam10a/sanasam10a.pdf (je préfère cette réponse à la réponse acceptée, tout simplement car elle fait le meilleur travail pour distinguer votre A et B!)
Darren Cook

5

Cet article passe en revue les mesures de dispersion standard utilisées par les linguistes. Ils sont répertoriés en tant que mesures de dispersion d'un seul mot (ils mesurent la dispersion des mots entre les sections, les pages, etc.) mais pourraient en théorie être utilisés comme mesures de dispersion de la fréquence des mots. Les statistiques standards semblent être:

  1. maximum minimum
  2. écart-type
  3. CV
  4. χ2

Les classiques sont:

  1. JullardD=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

Le texte mentionne également deux autres mesures de dispersion, mais elles reposent sur le positionnement spatial des mots, ce qui est donc inapplicable au modèle du sac de mots.

  • Remarque : J'ai changé la notation d'origine de l'article, pour rendre les formules plus cohérentes avec la notation standard.

fxi

vi

1
Pourquoi les équations de la source ne sont-elles pas copiées exactement (ce n'est pas seulement un changement d'étiquettes dans les expressions mais aussi un changement d'expression, ou du moins pas un changement cohérent des étiquettes / variables)?
Sextus Empiricus

@NickCox Merci d'avoir saisi cela, j'ai corrigé les formules pour inclure uniquement les quantités définies.
Chris Novak

@MartijnWeterings Vous avez raison: à l'origine, l'article traitait des mesures de dispersion d'un seul mot, bien qu'elles semblent se généraliser à la fréquence des mots de manière triviale. Au cas où j'aurais inclus cette information dans la réponse. J'ai changé la notation originale pour les rendre applicables au sac de modèle de mot (en remplaçant f par N et v_i par n_i). J'ai ajouté une note pour signifier cela, mais si vous pensez que c'est encore trompeur, je peux fournir une justification plus longue dans la réponse.
Chris Novak

4

Le premier que je ferais serait de calculer l'entropie de Shannon. Vous pouvez utiliser le package R infotheo, fonction entropy(X, method="emp"). Si vous en faites le natstobits(H)tour, vous obtiendrez l'entropie de cette source en bits.


3

Une mesure possible de l'égalité que vous pourriez utiliser est l' entropie de Shannon mise à l' échelle . Si vous avez un vecteur de proportions alors cette mesure est donnée par:p(p1,...,pn)

H¯(p)pilnpilnn.

Il s'agit d'une mesure mise à l'échelle avec une plage de avec des valeurs extrêmes se produisant aux extrêmes d'égalité ou d'inégalité. L'entropie de Shannon est une mesure de l'information, et la version à l'échelle permet la comparaison entre des cas avec différents nombres de catégories.0H¯(p)1

  • Inégalité extrême: tout le décompte est dans une catégorie . Dans ce cas, nous avons et cela nous donne .kpi=I(i=k)H¯(p)=0

  • Extreme Equality: Tous les comptes sont égaux dans toutes les catégories. Dans ce cas, nous avons et cela nous donne .pi=1/nH¯(p)=1

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.