Test de Kolmogorov – Smirnov: la valeur p et la statistique du test ks diminuent à mesure que la taille de l'échantillon augmente


11

Pourquoi les valeurs de p et les statistiques du test ks diminuent avec l'augmentation de la taille de l'échantillon? Prenez ce code Python comme exemple:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Les résultats sont:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Je comprends intuitivement qu'à mesure que n grandit, le test est "plus sûr" que les deux distributions sont différentes. Mais si la taille de l'échantillon est très grande, à quoi servent des tests de similitude comme celui-ci et disons le test d'Anderson Darling, ou le test t, parce que dans de tels cas, quand n est très grand, les distributions seront toujours trouvées "significativement différent!? Maintenant, je me demande quel est le point des valeurs p. Cela dépend tellement de la taille de l'échantillon ... si p> 0,05 et que vous voulez qu'il soit inférieur, obtenez simplement plus de données; et si p <0,05 et que vous voulez qu'il soit plus élevé, supprimez simplement certaines données.

De plus, si les deux distributions étaient identiques, la statistique du test ks serait 0 et la valeur p 1. Mais dans mon exemple, à mesure que n augmente, la statistique du test ks suggère que les distributions deviennent de plus en plus similaires avec le temps (diminue) , mais en fonction de la valeur de p, ils deviennent de plus en plus différents avec le temps (diminue également).


Voir Les tests de normalité sont-ils «essentiellement inutiles»? . Notez que ce que vous dites n'est pas tout à fait vrai: si les distributions sont en fait identiques, la distribution de la valeur p reste uniforme même lorsque vous augmentez la taille de l'échantillon.
Scortchi - Réintégrer Monica

2
J'ai eu un problème qui pourrait être lié à celui-ci: stats.stackexchange.com/questions/301628/… Cela m'a rendu vraiment sceptique à propos de ce test.
Aleksandar Jovanovic

C'est vrai, avec suffisamment de données, vous pouvez montrer que des tailles d'effet arbitrairement petites, mais non nulles sont statistiquement significatives. La clé ici est de reconnaître la distinction entre la signification statistique et la signification pratique. Pour citer mal Homer Simpson, "vous pouvez utiliser des valeurs de p pour prouver tout ce qui est vrai même à distance".
Nuclear Wang

Réponses:


4

La statistique de test diminue car vos distributions sont très similaires et les échantillons plus gros ont moins de bruit. Si vous deviez comparer les deux distributions théoriques que vous avez utilisées, vous devriez obtenir la "vraie" statistique KS. Au fur et à mesure que vous ajoutez des données, votre statistique KS estimée devrait approcher cette vraie valeur. Cependant, même lorsque votre statistique KS diminue, votre confiance augmente qu'il s'agit en fait de deux distributions différentes (c.-à-d. Que la valeur p diminue) parce que vous avez une plus grande confiance dans vos estimations des distributions individuelles.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.