Je cherche une bonne terminologie pour décrire ce que j'essaie de faire, pour faciliter la recherche de ressources.
Donc, disons que j'ai deux grappes de points A et B, chacune associée à deux valeurs, X et Y, et je veux mesurer la "distance" entre A et B - c'est-à-dire quelle est la probabilité qu'ils aient été échantillonnés à partir de la même distribution (Je peux supposer que les distributions sont normales). Par exemple, si X et Y sont corrélés dans A mais pas dans B, les distributions sont différentes.
Intuitivement, j'obtiendrais la matrice de covariance de A, puis j'examinerais la probabilité que chaque point de B y rentre, et vice-versa (en utilisant probablement quelque chose comme la distance de Mahalanobis).
Mais c'est un peu "ad-hoc", et il y a probablement une façon plus rigoureuse de décrire cela (bien sûr, dans la pratique, j'ai plus de deux jeux de données avec plus de deux variables - j'essaie d'identifier lequel de mes jeux de données sont des valeurs aberrantes).
Merci!