Alternative de distribution empirique


13

PRIME:

La prime complète sera attribuée à quelqu'un qui fournit une référence à tout article publié qui utilise ou mentionne l'estimateur F~ ci-dessous.

Motivation:

Cette section n'est probablement pas importante pour vous et je soupçonne qu'elle ne vous aidera pas à obtenir la prime, mais puisque quelqu'un a posé des questions sur la motivation, voici ce sur quoi je travaille.

Je travaille sur un problème de théorie des graphes statistiques. L'objet limitant le graphe dense standard W:[0,1]2[0,1] est une fonction symétrique dans le sens où W(u,v)=W(v,u) . L'échantillonnage d'un graphique sur n sommets peut être considéré comme l'échantillonnage de n valeurs uniformes sur l'intervalle unitaire ( Ui pour i=1,,n), puis la probabilité d'une arête (i,j) est W(Ui,Uj) . Laissez la matrice de contiguïté résultante appelée A .

On peut traiter comme une densité f = W /W en supposant que W > 0 . Si nous estimons f sur la base de A sans aucune contrainte à f , nous ne pouvons pas obtenir une estimation cohérente. J'ai trouvé un résultat intéressant sur l'estimation constante de f lorsque f provient d'un ensemble contraint de fonctions possibles. De cet estimateur et Σ A , nous pouvons estimer W .Wf=W/WW>0fAfffAW

Malheureusement, la méthode que j'ai trouvée montre de la cohérence lorsque nous échantillonnons à partir de la distribution avec la densité . La façon dont A est construit nécessite que j'échantillonne une grille de points (par opposition à prendre des tirages à partir du f d' origine ). Dans cette question stats.SE, je demande le problème unidimensionnel (plus simple) de ce qui se passe lorsque nous pouvons uniquement échantillonner l'échantillon de Bernoullis sur une grille comme celle-ci plutôt que d'échantillonner directement à partir de la distribution.fAf

références pour les limites du graphique:

L. Lovasz et B. Szegedy. Limites des séquences de graphes denses ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos et K. Vesztergombi. Séquences convergentes de graphes denses i: fréquences de sous-graphes, propriétés métriques et tests. ( arxiv ).

Notation:

Ff[0,1]fFf [ 0 , 1 ] X F X F U i [ 0 , 1 ]supz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Problème posé:

Souvent, nous pouvons laisser des variables aléatoires avec la distribution et travailler avec la fonction de distribution empirique habituelle comme où est la fonction d'indicateur. Notez que cette distribution empirique est elle-même aléatoire (où est fixe). F F n ( t ) = 1X1,,XnFI F n ( t ) t

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Malheureusement, je ne suis pas en mesure de prélever des échantillons directement à partir . Cependant, je sais que n'a un support positif que sur , et je peux générer des variables aléatoires où est une variable aléatoire avec une distribution de Bernoulli avec une probabilité de succès où et sont définis ci-dessus. Donc, . Une façon évidente d'estimer partir de ces valeurs est de prendre oùf [ 0 , 1 ] Y 1 , , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c c U i Y iBerne ( p i )Ff[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)Y i ˜ F n ( t ) = 1FYi n i = 1 Yi=0
F~n(t)=1i=1nYii=1tnYi
est la fonction de plafond (c'est-à-dire, arrondissez à l'entier le plus proche), et redessinez si (pour éviter de diviser par zéro et de faire s'effondrer l'univers) . Notez que est également une variable aléatoire car les sont des variables aléatoires.i=1nYi=0YiF~(t)Yi

Des questions:

De (ce que je pense être) du plus facile au plus difficile.

  1. Est-ce que quelqu'un sait si ce (ou quelque chose de similaire) a un nom? Pouvez-vous fournir une référence où je peux voir certaines de ses propriétés?F~n

  2. Comme , un estimateur cohérent de (et pouvez-vous le prouver)?nF(t)F~n(t)F(t)

  3. Quelle est la distribution limite de comme ?nF~n(t)n

  4. Idéalement, je voudrais limiter ce qui suit en fonction de - par exemple, , mais je ne sais pas quelle est la vérité. Le signifie Big O en probabilitéO P ( log ( n ) / nOPOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Quelques idées et notes:

  1. Cela ressemble beaucoup à un échantillonnage d'acceptation-rejet avec une stratification basée sur une grille. Notez que ce n'est pas le cas, car nous ne tirons pas un autre échantillon si nous rejetons la proposition.

  2. Je suis sûr que ce est biaisé. Je pense que l'alternative est impartiale, mais elle a la propriété désagréable que . ~ F n(t)=cF~nP( ~ F (1)=1)<1

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Je souhaite utiliser comme estimateur de plug-in . Je ne pense pas que ce soit une information utile, mais vous connaissez peut-être une raison pour laquelle cela pourrait être.F~n

Exemple en R

Voici du code R si vous voulez comparer la distribution empirique avec . Désolé, une partie de l'indentation est erronée ... Je ne vois pas comment résoudre ce problème.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

sortie des données ci-dessus

MODIFICATIONS:

EDIT 1 -

J'ai modifié cela pour répondre aux commentaires de @ whuber.

EDIT 2 -

J'ai ajouté du code R et l'ai nettoyé un peu plus. J'ai légèrement changé la notation pour la lisibilité, mais c'est essentiellement la même chose. Je prévois de mettre une prime à ce sujet dès que je suis autorisé à le faire, alors s'il vous plaît laissez-moi savoir si vous souhaitez plus de clarifications.

EDIT 3 -

Je pense avoir répondu aux remarques de @ cardinal. J'ai corrigé les fautes de frappe dans la variation totale. J'ajoute une prime.

EDIT 4 -

Ajout d'une section "motivation" pour @cardinal.


1
Votre question a commencé à devenir ambiguë au moment où vous avez fait référence à des objets non définis et à utiliser une notation idiosyncratique. Par exemple, apparaît tôt mais n'a aucun lien apparent avec et ce n'est qu'en lisant bien plus loin que nous apprenons que vous le considérez comme "pas une distribution discrète" - mais de quel type d'objet s'agit-il? Surtout, que signifie " ?" "signifie généralement supremum mais peut-être que cela a quelque chose à voir avec le support essentiel d'une distribution? Parce que tout dans la question dépend de ce que cela signifie, je ne peux pas avoir de sens de la question.F sup z f ( z ) supfFsupzf(z)sup
whuber

1
Merci @whuber pour vos commentaires. Veuillez me faire savoir si la question révisée prête toujours à confusion.
user1448319

1
Ah! C'est la première indication que j'ai vu que n'est pas fixe et que vous vous intéressez aux asymptotiques. S'il est vrai que vous avez la possibilité de choisir , cela n'ouvre-t-il pas une multitude de possibilités, telles que des choix adaptatifs des points d'échantillonnage (plutôt que de se limiter à une grille fixe )? Il est également évident que vous faites des hypothèses non déclarées, telles que est continu (de manière équivalente, est absolument continu ). Que pouvez-vous supposer d'autre sur la distribution sous-jacente qui peut aider à cette analyse? n { i / n } f F Fnn{i/n}fFF
whuber

2
Quelques autres questions / remarques: Il semble implicitement basé sur la façon dont vous proposez de construire que vous envisagez vraiment un tableau triangulaire , aux fins de l'analyse de convergence. D'après la façon dont vous construisez le , il semble que vous devriez également pouvoir (tout aussi facilement) échantillonner des variables aléatoires de Bernoulli avec une probabilité conditionnelle de succès où est une variable aléatoire uniforme. Est-ce vrai? (Un peu plus de contexte pour votre question résoudrait probablement beaucoup de ces questions.) Cheers. Y i , n i = 1 , , n p i f ( U ) / c UpiYi,ni=1,,npif(U)/cU
Cardinal

2
Cette question a été tellement améliorée que je ne l'ai même pas reconnue jusqu'à ce que je réalise que j'avais déjà vu les commentaires. C'est maintenant une question vraiment intéressante et beaucoup plus écrite.
Glen_b -Reinstate Monica

Réponses:


1

Bien que cette référence

EDIT: AJOUT DE RÉFÉRENCE À DES STATISTIQUES TRÈS SIMILAIRES "Estimation non paramétrique à partir d'observations incomplètes" EL Kaplan et Paul Meier, Journal de l'American Statistical Association, Vol. 53, n ° 282 (juin. 1958), pp. 457-481

[0,1][0,)

L'estimation du biais serait possible une fois que vous avez une estimation raisonnable de la distribution via le lissage du noyau si elle se comporte assez bien (voir, par exemple, la transformation de Khmaladze sur Wikipédia).

f=W/WA


0

Cela répond aux questions 2 et 3 ci-dessus. Je veux quand même vraiment une référence (de la question 1).

Yi=0

g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
 Cov(R,S)=0Yi

Maintenant, nous utilisons une extension taylor pour obtenir

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Veuillez commenter si vous voyez quelque chose de mal à cela.

MODIFICATIONS:

Modifier 1 -

VF(t)

Modifier 2 -

c1cYi=0


1
F~n(t)iYi=0F~n(t), il sera donc plus propre (et plus correct) si vous suivez cette voie.
Cardinal

2
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
cardinal

iYi=0Yi{iYi>0}n=22×2

supCC|F~F|=01|F~F|
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.