Motivation pour la distance de Kolmogorov entre les distributions


45

Il existe de nombreuses façons de mesurer la similarité des deux distributions de probabilité. Parmi les méthodes qui sont populaires (dans différents cercles) figurent:

  1. la distance de Kolmogorov: la distance supérieure entre les fonctions de distribution;

  2. la distance de Kantorovich-Rubinstein: la différence maximale entre les attentes par rapport aux deux distributions de fonctions à constante de Lipschitz , qui se révèle être également la distance entre les fonctions de distribution;1L1

  3. la distance bornée-Lipschitz: comme la distance KR, mais les fonctions doivent également avoir une valeur absolue au plus égale à .1

Ceux-ci présentent des avantages et des inconvénients différents. Seule la convergence au sens de 3 correspond précisément à la convergence de la distribution; la convergence au sens de 1 ou 2 est légèrement plus forte en général. (En particulier, si avec une probabilité de , converge vers dans la distribution, mais pas dans la distance de Kolmogorov. Toutefois, si la distribution limite est continue, cette pathologie ne se produit pas. )Xn=1n1Xn0

Du point de vue de la probabilité élémentaire ou de la théorie de la mesure, 1. est très naturel car il compare les probabilités d'être dans un ensemble. En revanche, une perspective probabiliste plus sophistiquée tend à se concentrer davantage sur les attentes que sur les probabilités. En outre, du point de vue de l'analyse fonctionnelle, des distances telles que 2. ou 3. basées sur la dualité avec un espace fonctionnel sont très attrayantes, car il existe un grand nombre d'outils mathématiques pour travailler avec ce genre de choses.

Cependant, mon impression (corrigez-moi si je me trompe!) Est que, dans les statistiques, la distance de Kolmogorov est le moyen généralement préféré de mesurer la similarité des distributions. Je peux deviner une des raisons: si l’une des distributions est discrète avec un support fini - en particulier s’il s’agit de la distribution de données réelles - alors la distance de Kolmogorov par rapport à une distribution de modèle est facile à calculer. (La distance KR serait légèrement plus difficile à calculer, et la distance BL serait probablement impossible en pratique.)

Ma question (enfin) est donc la suivante: existe-t-il d'autres raisons, pratiques ou théoriques, de favoriser la distance de Kolmogorov (ou une autre distance) à des fins statistiques?


1
J'aime la question, il y a peut-être déjà l'essentiel de la réponse possible dans la question ... avez-vous une idée du type de réponse / développement que vous voulez?
robin girard

1
Pas très spécifiquement. J'ignore assez les statistiques et l'une des raisons pour lesquelles je pose cette question est d'apprendre quels critères les statisticiens utiliseraient pour choisir entre différentes mesures. Comme j'ai déjà décrit un avantage pratique important de 1 (vous pouvez le calculer en réalité), je m'intéresse particulièrement aux motivations théoriques. Disons, les informations fournies par les estimations de la distance de Kolmogorov sont-elles fréquemment utilisées directement dans les applications?
Mark Meckes

J'ai oublié de terminer mon commentaire précédent par le plus ou moins évident: et si oui, comment?
Mark Meckes

Je viens de relire mon long commentaire ci-dessus et je me suis rendu compte que la dernière question que j'ai soulevée est tout autant une considération pratique que théorique. En tout cas, c'est l'un des types de questions sur lesquelles j'aimerais être informé.
Mark Meckes

Je sais que vous ne vouliez pas être exhaustif, mais vous pouvez ajouter la statistique Anderson chérie (voir en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Cela m'a fait penser à un article de Jager et Wellner (voir projecteuclid.org/… ) qui étend / généralise la statistique chérie d'Anderson (et inclut notamment des critiques plus
sévères à l'

Réponses:


12

Marque,

La principale raison dont je suis conscient pour l'utilisation de KS est qu'elle découle naturellement des théorèmes de Glivenko-Cantelli dans les processus empiriques univariés. AWvan der Vaart "Statistiques asymptotiques", ch. 19. Une monographie plus avancée est "Convergence faible et processus empiriques" de Wellner et van der Vaart.

J'ajouterais deux notes rapides:

  1. une autre mesure de la distance couramment utilisée dans les distributions univariées est la distance de Cramer-von Mises, qui est une distance L ^ 2;
  2. dans les espaces vectoriels généraux, différentes distances sont utilisées; l'espace d'intérêt dans de nombreux journaux est poli. La "convergence des mesures de probabilité" de Billingsley est une très bonne introduction.

Je m'excuse si je ne peux pas être plus spécifique. J'espère que ça aide.


2
Deux notes rapides sur vos notes. 1. La distance C-vM est précisément le cousin L ^ 2 des distances de Kolmogorov (L ^ infini) et de KR (univariée) KR (L ^ 1), et par conséquent interpole entre elles. 2. Un avantage que je n'ai pas mentionné concernant les distances KR et BL est qu'elles se généralisent plus naturellement aux espaces de dimensions supérieures.
Mark Meckes

En ce qui concerne 1., c'est correct. Concernant 2. En principe, toutes les distances ci-dessus pourraient être reportées sur R ^ n, mais je ne connais pas de tests non paramétriques courants basés sur une distance quelconque . Il serait intéressant de savoir s’il en existe.
Gappy

8

Les problèmes de calcul sont l'argument le plus fort que j'ai entendu d'une manière ou d'une autre. Le principal avantage de la distance de Kolmogorov est qu’il est très facile de calculer analytiquement pour presque tous les CDF. La plupart des autres métriques de distance n'ont pas d'expression de forme fermée, sauf parfois dans le cas de Gauss.

La distance de Kolmogorov d'un échantillon a également une distribution d'échantillonnage connue étant donnée le CDF (je ne pense pas que la plupart des autres le soient), ce qui finit par être lié au processus de Wiener. C'est la base du test de Kolmogorov-Smirnoff pour comparer un échantillon à une distribution ou deux échantillons l'un à l'autre.

Sur une note d’analyse plus fonctionnelle, la norme standard est intéressante dans la mesure où (comme vous le dites) elle définit fondamentalement la convergence uniforme. Cela vous laisse avec une convergence de normes impliquant une convergence point par point. Ainsi, si vous êtes intelligent dans la définition de vos séquences de fonctions, vous pouvez travailler dans un environnement RKHS et utiliser tous les outils utiles qu’il fournit également.


8

En résumé , ma réponse est la suivante: si vous avez une expression explicite ou si vous pouvez comprendre ce que votre distance mesure (à quelles "différences" il donne poids), alors vous pouvez dire en quoi elle est meilleure. Une autre façon complémentaire d'analyser et de comparer un tel test est la théorie minimax.

À la fin, certains tests seront utiles pour certaines alternatives et d'autres pour d'autres. Pour un ensemble d'alternatives donné, il est parfois possible d'indiquer si votre test a une propriété optimale dans le pire des cas: c'est la théorie du minimax.


Quelques détails

Par conséquent, vous pouvez parler des propriétés de deux tests différents en considérant l'ensemble d'alternatives pour lesquelles ils sont minimax (si une telle alternative existe), c'est-à-dire (en utilisant le mot de Donoho et Jin) en comparant leurs "valeurs optimales de détection" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Laissez-moi aller distance par distance:

  1. La distance KS est obtenue en calculant la plus grande différence entre cdf et cdf empiriques. En tant que suppremum, il sera très sensible aux alternatives locales (changement local dans la cdf) mais pas à un changement global (au moins, utiliser la distance L2 entre la cdf serait moins local (suis-je ouvert la porte ouverte?)). Cependant, le plus important est d’utiliser la cdf. Cela implique une asymétrie: vous accordez plus d'importance aux changements dans la queue de votre distribution.

  2. Wassertein metric (que voulez-vous dire par Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric est omniprésent et donc difficile à comparer.

    • Pour le cas particulier de W2, il a été utilisé dans http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 et il est lié à la distance de L2 par rapport à l'inverse de cdf. Je crois comprendre que cela donne encore plus de poids aux queues, mais je pense que vous devriez lire le journal pour en savoir plus.
    • Pour le cas de la distance L1 entre fonction de densité, cela dépendra beaucoup de la façon dont vous estimez votre fonction de dentition à partir des données ... mais sinon, il semble que ce soit un "test équilibré" qui ne donne pas d'importance aux queues.

Pour rappeler et prolonger le commentaire que j'ai fait qui complète la réponse:

Je sais que vous ne vouliez pas être exhaustif, mais vous pouvez ajouter une statistique Anderson chérie (voir http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Cela m'a fait penser à un article de Jager et Wellner (voir http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) qui étend / généralise les statistiques chères d'Anderson (et les inclut notamment) plus haute critique de Tukey). Des critiques plus sévères se sont déjà révélées être minimax pour un large éventail de solutions de remplacement et Jager et Wellner en font de même pour leur extension. Je ne pense pas que la propriété minimax ait été démontrée pour le test de Kolmogorov. Quoi qu'il en soit, comprendre pour quel type d'alternative votre test est minimax vous aide à savoir où se trouve sa force. Vous devriez donc lire le document ci-dessus.


1
Oui, ce que j’ai appelé la distance Kantorovitch-Rubinstein est aussi appelé la distance L ^ 1 Wasserstein ou W1. Cela passe par beaucoup d'autres noms aussi.
Mark Meckes

3
Juste pour clarifier pour ceux qui ne connaissent pas les distances de Wasserstein qui lisent ceci et la réponse de Gappy: la distance L ^ 2 Wasserstein (W2) n’est pas la même que la distance de Cramer-von Mises.
Mark Meckes

4

Je pense que vous devez considérer les avantages théoriques vs appliqués des différentes notions de distance. Les objets mathématiquement naturels ne se traduisent pas forcément bien en application. Kolmogorov-Smirnov est le plus connu pour son application et est solidement implanté dans les tests de qualité de l'ajustement. Je suppose que l' une des raisons pour cela est que lorsque la distribution sous - jacente est continue la distribution de la statistique est indépendante de . Une autre solution est qu'il peut être facilement inversé pour donner des bandes de confiance au CDF.FFF

Mais il est souvent utilisé de manière différente où est estimé par , et la statistique de test prend la forme L'intérêt est de voir dans quelle mesure ajuste les données et agit comme si , même si la théorie asymptotique ne s'applique pas nécessairement.FF^

supx|Fn(x)F^(x)|.
F^F^=F

3

Je ne peux pas vous donner d'autres raisons d'utiliser le test de Kolmogorov-Smirnov. Mais, je peux vous donner une raison importante de ne pas l'utiliser. Cela ne correspond pas bien à la fin de la distribution. Anderson-Darling est à cet égard un test d’ajustement de distribution supérieur. En deuxième place, le test du Chi Square est plutôt bon. Les deux sont jugés très supérieurs au test KS à cet égard.


2

Du point de vue de l'analyse fonctionnelle et de la théorie de la mesure, les distances de type ne définissent pas d'ensembles mesurables d'espaces de fonctions (espaces à dimensions infinies libérant un additif dénombrable dans les revêtements de billes métriques). Cela exclut fermement toute interprétation mesurable des distances des choix 2 et 3.Lp

Bien sûr, Kolomogorov, étant beaucoup plus brillant que nous, en particulier moi-même, avons anticipé cela. Le malin est que, bien que la distance dans le test KS soit de type , la norme uniforme elle-même n’est pas utilisée pour définir les ensembles mesurables. Les ensembles font plutôt partie d'une filtration stochastique sur les différences entre les distributions évaluées aux valeurs observées; ce qui équivaut au problème du temps d'arrêt.L0

En bref, la distance de norme uniforme du choix 1 est préférable car le test qu’il implique est équivalent au problème du temps d’arrêt, qui produit lui-même des probabilités pouvant être traitées par des calculs. Là où les choix 2 et 3 ne peuvent pas définir de sous-ensembles mesurables de fonctions.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.