Il pourrait être utile de donner un peu plus d’aperçu du MMD.
En général, MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités. C'est, disons que nous avons des distributions et sur un ensemble . Le MMD est défini par une carte de fonctionnalités , où est ce qu'on appelle un espace Hilbert de noyau de reproduction. En général, le MMD est
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Par exemple, nous pourrions avoir et . Dans ce cas:
donc ce MMD est juste la distance entre les moyennes des deux distributions. Les distributions correspondantes comme celle-ci correspondront à leurs moyennes, bien qu'elles puissent différer dans leur variance ou d'autres manières.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Votre cas est légèrement différent: nous avons et , avec , où est une matrice . Nous avons donc
Ce MMD est la différence entre deux projections différentes de la moyenne. Si ou le mappage autrement n'est pas inversible,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ que la précédente: elle ne fait pas de distinction entre certaines distributions que la précédente fait.
Vous pouvez également construire des distances plus importantes. Par exemple, si et vous utilisez , alors le MMD devient , et peut distinguer non seulement des distributions avec des moyennes différentes mais aussi avec des variances différentes.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Et vous pouvez devenir beaucoup plus fort que cela: si correspond à un espace Hilbert de noyau de reproduction général, alors vous pouvez appliquer l' astuce du noyau pour calculer le MMD, et il s'avère que de nombreux noyaux, y compris le noyau gaussien, conduisent au MMD étant nul si et seulement les distributions sont identiques.φ
Plus précisément, en laissant , vous obtenez
que vous pouvez directement estimer avec des échantillons.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Mise à jour: voici d'où vient le "maximum" du nom.
La carte des fonctionnalités mappée dans un espace Hilbert du noyau de reproduction. Ce sont des espaces de fonctions , et satisfont une propriété clé (appelée propriété de reproduction ): pour tout .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
Dans l'exemple le plus simple, avec , nous considérons chaque comme la fonction correspondant à certains , par . La propriété de reproduction devrait alors avoir un sens.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
Dans des paramètres plus complexes, comme un noyau gaussien, est une fonction beaucoup plus compliquée, mais la propriété de reproduction tient toujours.f
Maintenant, nous pouvons donner une caractérisation alternative du MMD:
La deuxième ligne est un fait général sur les normes dans les espaces de Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ est obtenu par . Le quatrième dépend d'une condition technique connue sous le nom d'intégrabilité de Bochner mais est vrai par exemple pour les noyaux bornés ou les distributions avec support borné. Ensuite, à la fin, nous utilisons la propriété de reproduction.f=g/∥g∥
Cette dernière ligne est la raison pour laquelle on l'appelle "écart moyen maximum" - c'est le maximum, sur les fonctions de test dans la boule unitaire de , de la différence moyenne entre les deux distributions.fH