Pourquoi les valeurs de p et les statistiques du test ks diminuent avec l'augmentation de la taille de l'échantillon? Prenez ce code Python comme exemple:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Les résultats sont:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Je comprends intuitivement qu'à mesure que n grandit, le test est "plus sûr" que les deux distributions sont différentes. Mais si la taille de l'échantillon est très grande, à quoi servent des tests de similitude comme celui-ci et disons le test d'Anderson Darling, ou le test t, parce que dans de tels cas, quand n est très grand, les distributions seront toujours trouvées "significativement différent!? Maintenant, je me demande quel est le point des valeurs p. Cela dépend tellement de la taille de l'échantillon ... si p> 0,05 et que vous voulez qu'il soit inférieur, obtenez simplement plus de données; et si p <0,05 et que vous voulez qu'il soit plus élevé, supprimez simplement certaines données.
De plus, si les deux distributions étaient identiques, la statistique du test ks serait 0 et la valeur p 1. Mais dans mon exemple, à mesure que n augmente, la statistique du test ks suggère que les distributions deviennent de plus en plus similaires avec le temps (diminue) , mais en fonction de la valeur de p, ils deviennent de plus en plus différents avec le temps (diminue également).