Pouvez-vous utiliser le test de Kolmogorov-Smirnov pour tester directement l'équivalence de deux distributions?


8

Il y a eu des discussions sur d'autres questions sur la façon dont on pourrait utiliser l'approche des deux tests unilatéraux (TOST) pour le test de Kolmogorov-Smirnov (KS), mais je me demandais s'il était possible d'utiliser directement la statistique de test pour montrer que deux les distributions étaient similaires?

Si je comprends bien, la statistique du test KS représente la plus grande différence entre deux CDF, la version à un échantillon étant utilisée à l'origine comme test de qualité d'ajustement. Ceci est montré dans [1] comme étant lorsque la distribution empirique croise en dehors de l'intervalle de confiance (c'est-à-dire que n'importe quel point est trop éloigné de la distribution hypothétique contre laquelle ils sont testés).

Si la version à deux échantillons est souvent utilisée pour montrer que deux distributions sont significativement différentes l'une de l'autre, de manière similaire à la version à un échantillon, pouvons-nous inverser le calcul des intervalles de confiance à l'aide de pour utiliser à la place , comme moyen de montrer que la différence maximale entre les deux distributions est sensiblement similaire?(1α)=0.05(1α)=0.95

[1] Massey, F. "Le test de Kolmogorov-Smirnov pour la qualité de l'ajustement", Journal de l'American Statistical Association , vol. 46, non. 253, p. 68-78, mars 1951

Réponses:


3

Lors de la réalisation du test de Kolmogorov-Smirnov, nous supposons les deux distributions sont équivalentes. Nous calculons ensuite une statistique de test et, si la valeur correspondante est suffisamment petite, nous rejetons et concluons les deux distributions sont différentes.H0:pH0HA:

En ce qui concerne les tests d'hypothèse, nous utilisons une valeur pour quantifier la quantité de preuves dont nous disposons pour rejeter l'hypothèse nulle. Une valeur de 1 indique que nous n'avons rassemblé aucune preuve pour rejeter l'hypothèse nulle. Une valeur proche de 0 indique qu'il existe des preuves accablantes pour rejeter l'hypothèse nulle.ppp

Supposons que nous ayons des données et calculons une valeur partir du test KS où Cela indique qu'il y a très peu de preuves pour rejeter l'hypothèse nulle. Cependant, nous ne pouvons pas établir un standard de tel que implique que nous concluons que l'hypothèse nulle est correcte. De plus, je ne crois pas qu'il existe un autre test qui nous permettrait de conclure que les deux distributions sont les mêmes.pp=0.99.α=0.95p>α

Ce que je pense que vous pouvez faire, c'est d'être tout à fait honnête dans la rédaction ou la discussion. Mentionnez que vous avez exécuté un test KS, signalez une valeur de et si la valeur de est suffisamment élevée, expliquez qu'il y a très peu de preuves suggérant que les deux distributions sont différentes. Ainsi, bien que vous ne puissiez pas conclure que les distributions sont identiques, vous devriez être en mesure de noter qu'il n'y a aucune preuve suggérant que les deux distributions sont différentes. Plus votre taille d'échantillon augmente, plus vous aurez confiance en cette réponse.ppn

Ce n'est pas tout à fait la réponse que vous cherchiez probablement, mais ce n'est pas non plus un lavage total. J'espère que cela t'aides!


(1/2) Je comprends que nous ne pouvons pas simplement utiliser une valeur p> 0,98 .. etc. - ce que je me demandais, c'est que si le test KS mesure réellement la distance maximale entre les deux distributions, alors il se sent comme s'il était dans une position unique pour effectuer directement des tests d'équivalence. Par exemple, si la statistique de test D = 0, alors les deux distributions doivent sûrement être identiques? Et si tel est le cas, qu'en est-il de D <0,0001? Il semble qu'il devrait y avoir un point critique (comme lorsque p croise 0,05), où nous ne pouvons plus être certains qu'il s'agit de la même distribution, et
jamesyjamesjames

(2/2) ... peut donc retourner cela sur sa tête et utiliser 0 <D <0,05 (par exemple) pour dire que les deux distributions sont significativement similaires.
jamesyjamesjames

1
Même si , nous ne pouvons pas conclure que les distributions sont identiques. Nous pouvons seulement conclure que notre échantillon ne nous donne aucune preuve contre l'affirmation selon laquelle les deux distributions sont les mêmes. Peut-être que notre échantillon ne contient tout simplement pas d'observations qui indiqueraient une différence de distribution. C'est la même chose que tous les tests d'hypothèse - une statistique de test qui correspond à une valeur de 1 ne fournit aucune preuve contre l'hypothèse nulle mais ne peut pas prouver définitivement que l'hypothèse nulle est correcte. En pratique, à mesure que augmente, vous pouvez devenir plus confiant que le ...D=0pn
Matt Brems

1
... les distributions sont identiques mais vous ne pouvez pas établir de façon concluante ce fait.
Matt Brems

2
Ah bien sûr - parce que c'est un ECDF. Ouais, ça a du sens.
jamesyjamesjames
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.