Les tests qui comparent les distributions sont des tests d'exclusion. Ils partent de l'hypothèse nulle que les 2 populations sont identiques, puis essaient de rejeter cette hypothèse. Nous ne pouvons jamais prouver que le nul est vrai, il suffit de le rejeter, de sorte que ces tests ne peuvent pas vraiment être utilisés pour montrer que 2 échantillons proviennent de la même population (ou de populations identiques).
C'est parce qu'il pourrait y avoir des différences mineures dans les distributions (ce qui signifie qu'elles ne sont pas identiques), mais si petites que les tests ne peuvent pas vraiment trouver la différence.
Considérons 2 distributions, la première est uniforme de 0 à 1, la seconde est un mélange de 2 uniformes, donc elle est 1 entre 0 et 0,999, et également 1 entre 9,999 et 10 (0 ailleurs). Il est donc clair que ces distributions sont différentes (si la différence est significative est une autre question), mais si vous prenez un échantillon de 50 dans chaque (100 au total), il y a plus de 90% de chances que vous ne voyiez que des valeurs comprises entre 0 et 0,999 et être incapable de voir une réelle différence.
Il existe des moyens de faire ce qu'on appelle des tests d'équivalence lorsque vous demandez si les 2 distributions / populations sont équivalentes, mais vous devez définir ce que vous considérez comme équivalent. C'est généralement qu'une certaine mesure de la différence se situe dans une plage donnée, c'est-à-dire que la différence dans les 2 moyennes est inférieure à 5% de la moyenne des 2 moyennes, ou que la statistique KS est inférieure à un seuil donné, etc. Si vous peut alors calculer un intervalle de confiance pour la statistique de différence (la différence de moyenne pourrait simplement être l'intervalle de confiance t, le bootstrap, la simulation ou d'autres méthodes peuvent être nécessaires pour d'autres statistiques). Si tout l'intervalle de confiance tombe dans la "région d'équivalence", alors nous considérons les 2 populations / distributions comme "équivalentes".
La partie difficile consiste à déterminer quelle devrait être la région d'équivalence.