L'explication sur la page référencée est
Dans l'hypothèse nulle, la probabilité est exactement lorsque le caractère aléatoire des données et le caractère aléatoire de la simulation sont pris en compte.Pr(P≤k/nsim)k/nsim
Pour comprendre cela, il faut regarder le code, dont les lignes clés (considérablement abrégées) sont
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Le problème saillant est que le code ne correspond pas à la citation. Comment les réconcilier? Une tentative commence par la dernière moitié de la citation. Nous pouvons interpréter la procédure comme comprenant les étapes suivantes:
Collect indépendamment et les données distribuées de façon identique selon une loi de probabilité . Appliquer une procédure de test (implémentée dans le code as ) pour produire le nombre .X1,X2,…,XnGtfred
T0=t(X1,…,Xn)
Générer par ordinateur ensembles de données comparables, chacune de taille , selon une hypothèse nulle avec la loi de probabilité . Appliquez à chacun de ces ensembles de données pour produire nombres .N=nsimnFtNT1,T2,…,TN
Calculez
P=(∑i=1NI(Ti>T0)+1)/(N+1).
( « » est la fonction de l' indicateur mis en oeuvre par la comparaison d'une valeur vectorielle dans le code). Le côté droit est comprise comme étant aléatoire grâce à l' simultané aléatoire de (la statistique de test réel) et le caractère aléatoire de la ( les statistiques des tests simulés). Id.star > d.hat
T0Ti
Dire que les données sont conformes à l'hypothèse nulle est Affirmer que . Choisissez une taille de test , . La multiplication des deux côtés par et la soustraction de montre que la chance que pour n'importe quel nombre soit la chance que pas plus de du dépasse . Cela simplement que se trouve dans le sommet de l'ensemble trié de toutes les statistiques de test . Depuis (par construction)F=Gα0<α<1N+11P≤αα(N+1)α−1TiT0T0(N+1)αN+1T0est indépendant de tous les , lorsque est une distribution continue, cette chance sera la fraction du total représentée par la partie entière ; c'est-à-dire, et il sera exactement égal à celui fourni est un nombre entier ; c'est-à-dire quand .TiF⌊(N+1)α⌋
Pr(P≤α)=⌊(N+1)α⌋N+1≈α
(N+1)αkα=k/(N+1)
C'est certainement l'une des choses que nous voulons que soit vraie pour toute quantité qui mérite d'être appelée une "valeur p": elle devrait avoir une distribution uniforme sur . Pourvu que soit assez grand, de sorte que tout soit proche d'une fraction de la forme , ce aura presque un uniforme Distribution. (Pour en savoir plus sur les conditions supplémentaires requises pour une valeur de p, veuillez lire la boîte de dialogue que j'ai publiée au sujet des valeurs de p. )[0,1]N+1αk/(N+1)=k/(nsim+1)P
Évidemment, la citation doit utiliser " " au lieu de " " partout où elle apparaît.nsim+1nsim