Techniquement, pour calculer une mesure dis (similitude) entre les individus sur des attributs nominaux, la plupart des programmes recodent d'abord chaque variable nominale en un ensemble de variables binaires fictives , puis calculent une certaine mesure pour les variables binaires. Voici des formules de mesures de similarité et de dissimilarité binaires fréquemment utilisées .
Qu'est-ce que les variables fictives (également appelées one-hot)? Ci-dessous se trouvent 5 individus, deux variables nominales (A avec 3 catégories, B avec 2 catégories). 3 mannequins créés à la place de A, 2 mannequins créés à la place de B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Il n'est pas nécessaire d'éliminer une variable fictive comme "redondante" comme nous le ferions généralement en régression avec des variables fictives. Elle n'est pas pratiquée en clustering, bien que dans des situations spéciales, vous puissiez envisager cette option.)
unea + b + c
- a - nombre de nuls 1 pour les deux individus
- b - nombre de nuls 1 pour ceci et 0 pour cela
- c - nombre de nuls 0 pour ceci et 1 pour cela
- d - nombre de nuls 0 pour les deux
bcuneune2 a2 a + b + cdistance. Regardez combien de synonymes - vous êtes sûr de trouver quelque chose de cela dans votre logiciel!
La validité intuitive du coefficient de similitude Dice vient du fait qu'il s'agit simplement de la proportion de co-occurrence (ou accord relatif ). Pour l'extrait de données ci-dessus, prenez la colonne nominale A
et calculez la 5x5
matrice symétrique carrée avec 1
(les deux individus sont tombés dans la même catégorie) ou 0
(pas dans la même catégorie). Calculez également la matrice pour B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Additionnez les entrées correspondantes des deux matrices et divisez par 2 (nombre de variables nominales) - vous êtes ici avec la matrice des coefficients de dés. (Donc, en fait, vous n'avez pas à créer de variables muettes pour calculer les dés, avec les opérations matricielles, vous pouvez probablement le faire plus rapidement comme décrit ci-dessus.) Voir une rubrique connexe sur les dés pour l'association des attributions nominales .
Bien que les dés soient la mesure la plus apparente à utiliser lorsque vous voulez une fonction de (dis) similitude entre les cas où les attributs sont catégoriques, d'autres mesures binaires pourraient être utilisées - si la formule satisfait les considérations sur vos données nominales.
a + da + b + c + dréréb + créré2= p ( 1 - SM)p
Mais ...
ré
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Étant donné que dans de nombreuses applications d'une matrice de proximité, comme dans de nombreuses méthodes d'analyse en grappes, les résultats ne changeront pas ou changeront en douceur sous la transformation linéaire (et parfois même sous monotone) des proximités, il semble que l'on puisse se justifier par un grand nombre de mesures binaires en plus de dés pour obtenir des résultats identiques ou similaires. Mais vous devez d' abord considérer / explorer comment la méthode spécifique (par exemple un lien dans le clustering hiérarchique) réagit à une transformation donnée des proximités.
Si votre regroupement planifié ou votre analyse MDS est sensible aux transformations monotones des distances, vous feriez mieux de ne pas utiliser de mesures notées comme "monotones" dans le tableau ci-dessus (et donc oui, ce n'est pas une bonne idée d'utiliser la similitude Jaccard ou la distance euclidienne non équarrie avec un mannequin). , c.-à-d. anciens attributs nominaux).