Il existe de nombreux coefficients de ce type (la plupart sont exprimés ici ). Essayez simplement de méditer sur les conséquences des différences de formules, surtout lorsque vous calculez une matrice de coefficients.
Imaginez, par exemple, que les objets 1 et 2 soient similaires, tout comme les objets 3 et 4. Mais 1 et 2 ont de nombreux attributs sur la liste tandis que 3 et 4 n'ont que peu d'attributs. Dans ce cas, Russell-Rao (proportion de co-attributs par rapport au nombre total d'attributs considérés) sera élevé pour la paire 1-2 et faible pour la paire 3-4. Mais Jaccard (proportion de co-attribue le nombre combiné d'attributs les deux objets ont = probabilité que si l'objet a un attribut ils ont tous deux alors il) sera élevé pour les deux paires 1-2 et 3-4.
Cet ajustement pour le niveau de base de "saturation par attributs" rend Jaccard si populaire et plus utile que Russell-Rao , par exemple dans l'analyse de grappes ou la mise à l'échelle multidimensionnelle. Vous pourriez, dans un sens, affiner davantage l'ajustement ci-dessus en sélectionnant la mesure de Kulczynski-2 qui est la probabilité moyenne arithmétique que si un objet a un attribut, l'autre objet l'a aussi:
( una + b+ aa + c) / 2
Ici, la base (ou le champ) d'attributs pour les deux objets n'est pas regroupée, comme dans Jaccard, mais est propre à chacun des deux objets. Par conséquent, si les objets diffèrent considérablement sur le nombre d'attributs qu'ils ont, et sur tous ses attributs, l'objet "le plus pauvre" partage avec celui "le plus riche", Kulczynski sera élevé tandis que Jaccard sera modéré.
Ou vous pourriez préférer calculer la probabilité géométrique moyenne que si un objet a un attribut, l'autre objet aussi, ce qui donne la mesure d' Ochiai :
Parce que le produit augmente plus faible que la somme quand un seul des termes croît, Ochiai ne sera vraiment élevé que si les deux proportions (probabilités) sont élevées, ce qui implique que pour être considérés comme similaires par Ochiai, les objets doivent partager le plus grand part de leurs attributs. En bref, Ochiai réduit la similitude si et sont inégaux. Ochiai est en fait la mesure de similitude cosinus (et Russell-Rao est la similitude du produit scalaire).
unea + bunea + c---------√
bc
PS
Est-ce simplement parce que pour certains ensembles de données, l'absence simultanée des deux attributs (d) ne transmet aucune information?
ré
Notez également que si vous souhaitez calculer la similitude entre les objets sur la base de 1+ attributs nominaux (dichotomiques ou polytomiques), recodez chacune de ces variables dans l'ensemble de variables binaires factices. Ensuite, la mesure de similarité recommandée pour calculer sera Dice ( qui , lorsqu'elle est calculée pour 1+ ensembles de variables muettes, est équivalente à Ochiai et Kulczynski-2).