Pourquoi le test de Kolmogorov-Smirnov fonctionne-t-il?

25

En lisant le test KS à 2 échantillons, je comprends exactement ce qu'il fait, mais je ne comprends pas pourquoi cela fonctionne .

En d'autres termes, je peux suivre toutes les étapes pour calculer les fonctions de distribution empiriques, trouver la différence maximale entre les deux pour trouver la statistique D, calculer les valeurs critiques, convertir la statistique D en une valeur p, etc.

Mais, je n'ai aucune idée pourquoi tout cela me dit réellement quelque chose sur les deux distributions.

Quelqu'un aurait tout aussi bien pu me dire que je dois sauter par-dessus un âne et compter à quelle vitesse il s'enfuit et si la vitesse est inférieure à 2 km / h, je rejette l'hypothèse nulle. Bien sûr, je peux faire ce que vous m'avez dit de faire, mais qu'est-ce que cela a à voir avec l'hypothèse nulle?

Pourquoi le test KS à 2 échantillons fonctionne-t-il? Qu'est-ce que le calcul de la différence maximale entre les ECDF a à voir avec la différence entre les deux distributions?

Toute aide est appréciée. Je ne suis pas statisticien, alors supposez que je suis idiot si possible.

— Darcy
source

4

Bienvenue sur CV, Darcy! Grande question!

— Alexis

1

Sautez par-dessus un âne ... :)

— Richard Hardy

9

Fondamentalement, le test est cohérent en tant que résultat direct du théorème de Glivenko Cantelli, l'un des résultats les plus importants des processus empiriques et peut-être des statistiques.

$n \rightarrow \infty$

Combien de temps? Mmyyeeaa je ne sais pas. La puissance du test est un peu douteuse. Je ne l'aurais jamais utilisé en réalité.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

— AdamO
source

2

+1 Salut AdamO! Vous avez une à deux phrases sur le pouvoir étant "un peu douteux?" J'adorerais cette perspective (j'ai compris que le test est considéré comme facilement "maîtrisé").

— Alexis

1

F_{1}

$F_1$

F_{2}

$F_2$

p > 0.05

$p > 0.05$

p < 0.05

$p < 0.05$

F_{1} = F_{2}

$F_1 = F_2$

1

F_{1}

$F_{1}$

\neq F_{2}

$\ne F_{2}$

2

@Alexis non, je n'ai aucun souci avec les mathématiques du test. En fait, je pense que c'est assez élégant et le résultat du théorème limite est très impressionnant.

— AdamO

2

F_{1}

$F_1$

F_{2}

$F_2$

9

Nous avons deux échantillons indépendants et univariés:

\begin{aligned} X_{1}, X_{2}, . . ., X_{N} & \overset{i i d}{\sim} F \\ Y_{1}, Y_{2}, . . ., Y_{M} & \overset{i i d}{\sim} G, \end{aligned}

$\begin{align} X_1,\,X_2,\,...,\,X_N&\overset{iid}{\sim}F\\ Y_1,\,Y_2,\,...,\,Y_M&\overset{iid}{\sim}G, \end{align}$

G

$G$

F

$F$

\begin{aligned} H_{0} & : F (x) = G (x) for all x \in R \\ H_{1} & : F (x) \neq G (x) for some x \in R . \end{aligned}

$\begin{align} H_0&:F(x) = G(x)\quad\text{for all } x\in\mathbb{R}\\ H_1&:F(x) \neq G(x)\quad\text{for some } x\in\mathbb{R}. \end{align}$

{X_{i}}_{i = 1}^{N}

$\{X_i\}_{i=1}^N$

{Y_{j}}_{j = 1}^{M}

$\{Y_j\}_{j=1}^M$

X_{i}

$X_i$

Y_{j}

$Y_j$

F

$F$

G

$G$

x

$x$

F

$F$

G

$G$

F (x) \neq G (x)

$F(x)\neq G(x)$

x \in R

$x\in\mathbb{R}$

— jcz
source

8

Une prise intuitive:

Le test de Kolmogorov-Smirnov s'appuie assez fondamentalement sur l'ordre des observations par distribution. La logique est que si les deux distributions sous-jacentes sont identiques, alors - en fonction de la taille des échantillons - l'ordre doit être assez bien mélangé entre les deux.

$Y$ $X$ $D$

$D$ $X$ $Y$

— Alexis
source