Valeurs deux échantillons de Kolmogorov-Smirnov


9

J'utilise le test à deux échantillons de Kolmogorov – Smirnov pour comparer les distributions, et j'ai remarqué qu'une valeur de est fréquemment indiquée comme statistique de test. Comment cette valeur est-elle déterminée? Je sais que c'est la probabilité d'obtenir un résultat au moins aussi grand que celui obtenu, mais comment cette valeur est-elle déterminée étant donné qu'il s'agit d'un test non paramétrique? Autrement dit, nous ne pouvons pas supposer les fluctuations gaussiennes de la distribution et calculer la valeur aide d'un test .ppppt

Merci!


5
La statistique de Kolmogorov-Smirnov (sur la classe de distributions de variables aléatoires continues) est sans distribution . Ainsi, la distribution de la statistique de test ne dépend pas de la distribution sous-jacente des données (sous l'hypothèse nulle).
cardinal

2
Le point de @ Cardinal est fait dans un commentaire dans l'entrée Wikipedia . Notez que la distribution de la statistique de test est asymptotique (c'est-à-dire, valable lorsque la plus petite taille de l'échantillon est elle-même grande); il est probable ne dépend de la distribution commune sous - jacente pour les petits échantillons.
whuber

@whuber: Je crains de ne pas bien comprendre votre commentaire et je ne veux pas le mal interpréter. Certes, la distribution dans les échantillons finis ne sera pas exactement la même que la distribution asymptotique, mais cela n'empêche pas la statistique d'être sans distribution pour chaque taille d'échantillon fixe (vraiment car les tailles peuvent différer). [suite]n(n1,n2)
cardinal

5
@whuber: ... Soit et des séquences iid indépendantes. Alorset. Donc, avec l'hypothèse susmentionnée que et sont des distributions continues, sous l'hypothèse nulle , nous voyons queest de distribution égale à la même statistique obtenue à partir de deux échantillons indépendants de même taille. XiFYiGnF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}|nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|FGF=Gsup|F^n(x)G^n(x)|U(0,1)
Cardinal

1
@whuber: Je pense que ce sont deux effets distincts, mais subtilement différents. Dans un certain sens, nous aimons les asymptotiques précisément parce qu'elles nous donnent (souvent) une statistique sans distribution "dans la limite" (en vertu du CLT). Ainsi, le fait que la valeur rapportée soit indépendante de l'hypothèse de distribution n'est pas si remarquable. On pourrait alors se demander à quoi sert une statistique sans distribution si je ne peux pas (facilement) calculer sa distribution pour une taille d'échantillon donnée et, à la place, si je dois compter sur une approximation asymptotique? Ce que l'on semble gagner, c'est une version de convergence uniforme. p
Cardinal

Réponses:


10

Dans l'hypothèse nulle, la distribution asymptotique de la statistique de Kolmogorov-Smirnov à deux échantillons est la distribution de Kolmogorov, qui a CDF

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

Les valeurs peuvent être calculées à partir de ce CDF - voir les sections 4 et 2 de la page Wikipedia sur le test de Kolmogorov – Smirnov.p

Vous semblez dire qu'une statistique de test non paramétrique ne devrait pas avoir de distribution - ce n'est pas le cas - ce qui rend ce test non paramétrique est que la distribution de la statistique de test ne dépend pas de la distribution de probabilité continue des données d'origine viens de. Notez que le test KS a cette propriété même pour les échantillons finis comme indiqué par @cardinal dans les commentaires.


3
(+1) Je pourrais suggérer un petit ajustement à votre dernière phrase. La statistique de test est sans distribution même dans les échantillons finis (bien qu'elle ne soit pas la même que la distribution asymptotique). Donc, cette propriété sans distribution est ce qui rend la statistique de test non paramétrique. Notez qu'il existe de nombreux exemples où la distribution asymptotique ne dépend pas de la distribution continue sous-jacente (pensez simplement à la CLT), donc, sauf erreur, je ne pense pas que ce soit la caractéristique principale ici. :)
Cardinal

J'ai fait la correction mais plus j'y pense, plus je me demande comment vous savez que la statistique ne dépend vraiment pas de la distribution originale des données en échantillons finis - pouvez-vous en dire plus sur ce @cardinal?
Macro

Sûr. Voir le quatrième commentaire (mon troisième) à la question ci-dessus.
cardinal

Je vois! très cool et simple - merci cardinal
Macro

Personne n'a abordé la distribution dans de petits échantillons, où nous pouvons calculer directement la distribution de permutation de la statistique. Si nous avons étiquettes et étiquettes , nous pouvons en écrire tous les ordres possibles (correspondant aux valeurs toutes arrangées du plus petit au plus grand) et il est possible de calculer la statistique KS à deux échantillons directement à partir de cela. En pratique, l'algorithme pour trouver une valeur de p peut être rendu plus sophistiqué que d'écrire toutes les possibilités (dans les deux cas, la quantité de calcul augmente rapidement mais la distribution asymptotique arrive assez rapidement)m Xn Y
Glen_b -Reinstate Monica

0

La valeur de p, disons 0,80, implique que 80% des échantillons de taille n d'échantillons de la population auront une statistique D inférieure à celle obtenue à partir du test. Ceci est calculé sur la base de la statistique D du test KS, qui mesure la distance maximale entre les CDF de distribution théorique et empirique, pour la distribution donnée par rapport à laquelle l'échantillon est évalué.

Notez que seule la valeur D * SQRT (taille de l'échantillon) a une distribution kolmogrov et non D elle-même. Si vous souhaitez calculer manuellement la valeur p en fonction de la valeur D, vous pouvez consulter les tableaux publiés disponibles sur Internet pour la distribution de kolomogrov. C'est aussi la valeur donnée dans des packages comme R


Ce n'est pas une réponse clairement expliquée.
Michael R. Chernick

Il s'agit d'une continuation de la réponse précédente publiée par Macro ci-dessus. Contrairement à ce que beaucoup pensent, la valeur de p calculée par le package R est parfaite. Cela signifie que si vous prenez chaque échantillon possible d'une taille donnée dans la population et que vous le comparez à la distribution théorique, la valeur de [distance maximale D * SQRT (taille de l'échantillon)] calculée par rapport à chaque échantillon aura une distribution kolomogrov. Pour une statistique D donnée, le package R donne la valeur de la probabilité que l'échantillon de la différence donnée appartienne à la population théorique, 0,8 signifie que seulement 20% auront un D plus élevé
Murugesan Narayanaswamy
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.