Questions pour débutants:
Je veux tester si deux ensembles de données discrets proviennent de la même distribution. Un test de Kolmogorov-Smirnov m'a été proposé.
Conover ( Practical Nonparametric Statistics , 3d) semble dire que le test de Kolmogorov-Smirnov peut être utilisé à cette fin, mais son comportement est "conservateur" avec des distributions discrètes, et je ne suis pas sûr de ce que cela signifie ici.
Le commentaire de DavidR sur une autre question dit "... Vous pouvez toujours faire un test de niveau α basé sur la statistique KS, mais vous devrez trouver une autre méthode pour obtenir la valeur critique, par exemple par simulation."
La version de ks.test () dans le package dgof R ( article , cran ) ajoute des fonctionnalités non présentes dans la version par défaut de ks.test () dans le package stats. Entre autres choses, dgof :: ks.test inclut ce paramètre:
simulate.p.value: une logique indiquant s'il faut calculer les valeurs de p par simulation Monte Carlo, pour des tests discrets de qualité d'ajustement uniquement.
Le but de simulate.p.value = T est-il d'accomplir ce que suggère DavidR?
Même si c'est le cas, je ne sais pas si je peux vraiment utiliser dgof :: ks.test pour un test à deux échantillons. Il semble qu'il ne fournisse qu'un test à deux échantillons pour une distribution continue:
Si y est numérique, un test à deux échantillons de l'hypothèse nulle selon laquelle x et y ont été tirés de la même distribution continue est effectué.
Alternativement, y peut être une chaîne de caractères nommant une fonction de distribution continue (cumulative) (ou une telle fonction), ou une fonction ecdf (ou objet de classe stepfun) donnant une distribution discrète. Dans ces cas, un test à un échantillon est effectué sur la valeur nulle que la fonction de distribution qui a généré x est la distribution y ....
(Détails d'arrière-plan: à strictement parler, mes distributions sous-jacentes sont continues, mais les données ont tendance à se situer très près d'une poignée de points. Chaque point est le résultat d'une simulation et est une moyenne de 10 ou 20 nombres réels entre -1 et 1. À la fin de la simulation, ces nombres sont presque toujours très proches de .9 ou -.9. Ainsi, les moyens se regroupent autour de quelques valeurs, et je les traite comme discrètes. La simulation est complexe, et je n'ai pas raison de penser que les données suivent une distribution bien connue.)
Conseil?