Mesurer la «distance» entre deux distributions multivariées


28

Je cherche une bonne terminologie pour décrire ce que j'essaie de faire, pour faciliter la recherche de ressources.

Donc, disons que j'ai deux grappes de points A et B, chacune associée à deux valeurs, X et Y, et je veux mesurer la "distance" entre A et B - c'est-à-dire quelle est la probabilité qu'ils aient été échantillonnés à partir de la même distribution (Je peux supposer que les distributions sont normales). Par exemple, si X et Y sont corrélés dans A mais pas dans B, les distributions sont différentes.

Intuitivement, j'obtiendrais la matrice de covariance de A, puis j'examinerais la probabilité que chaque point de B y rentre, et vice-versa (en utilisant probablement quelque chose comme la distance de Mahalanobis).

Mais c'est un peu "ad-hoc", et il y a probablement une façon plus rigoureuse de décrire cela (bien sûr, dans la pratique, j'ai plus de deux jeux de données avec plus de deux variables - j'essaie d'identifier lequel de mes jeux de données sont des valeurs aberrantes).

Merci!


Je ne sais pas pourquoi, mais un test de Mantel a défilé devant mes yeux lorsque j'ai lu votre message.
Roman Luštrik

Réponses:



16

Hmm, la distance Bhattacharyya semble être ce que je recherche, bien que la distance Hellinger fonctionne aussi.


vous mentionnez Bhattacharyya et Helling puis acceptez une réponse parlant de KL ... A la fin quel a été votre choix et pourquoi?
Simon C.

1
Je crois que c'était la divergence KL, mais ... c'était en 2010 et ma mémoire est loin d'être parfaite.
Emile

ahah oui je l'ai deviné, mais merci quand même!
Simon

9

Heuristique

  • Forme Minkowski
  • Variance moyenne pondérée (WMV)

Statistiques des tests non paramétriques

  • 2 (chi carré)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergences de la théorie de l'information

  • Kullback-Liebler (KL)
  • Divergence Jensen – Shannon (métrique)
  • Jeffrey-divergence (numériquement stable et symétrique)

Mesures de distance au sol

  • Intersection d'histogramme
  • Forme quadratique (QF)
  • Distance des Earth Movers (EMD)


0

Moins de mesures supplémentaires de la "différence statistique"

  • Test de permutation (par Fisher)
  • Théorème de limite centrale et théorème de Slutsky
  • Test de Mann-Whitney-Wilcoxin
  • Test d'Anderson – Darling
  • Test de Shapiro – Wilk
  • Test Hosmer – Lemeshow
  • Test de Kuiper
  • divergence Stein noyauée
  • Similitude Jaccard
  • En outre, le regroupement hiérarchique traite des mesures de similitude entre les groupes. Les mesures les plus populaires de la similitude des groupes sont peut-être le couplage unique, le couplage complet et le couplage moyen.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.