Pendant que j'étudiais la suffisance, je suis tombé sur votre question parce que je voulais aussi comprendre l'intuition de ce que j'ai rassemblé, c'est ce que je trouve (faites-moi savoir ce que vous pensez, si je fais des erreurs, etc.).
Soit un échantillon aléatoire d'une distribution de Poisson avec une moyenne θ > 0 .X1, … , Xnθ > 0
Nous savons que est une statistique suffisante pour θ , puisque la distribution conditionnelle de X 1 , … , X n étant donné que T ( X ) est libre de θ , en d'autres termes, ne signifie pas dépendent de θ .T( X ) = ∑ni = 1XjeθX1, … , XnT( X )θθ
Or, le statisticien sait que X 1 , … , X n i . i . d ∼ P o i s s o n ( 4 ) et crée n = 400 valeurs aléatoires à partir de cette distribution:UNE X1, … , Xn∼i . i . réPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Pour les valeurs créées par le statisticien , il en prend la somme et demande au statisticien B :AB
"J'ai ces valeurs d'échantillon tirées d'une distribution de Poisson. Sachant que ∑ n i = 1 x i = y = 4068 , que pouvez-vous me dire à propos de cette distribution?"x1,…,xn∑ni=1xi=y=4068
Donc, sachant seulement que (et le fait que l'échantillon provienne d'une distribution de Poisson) est-il suffisant pour que le statisticien B dise quelque chose sur θ ? Puisque nous savons qu'il s'agit d'une statistique suffisante, nous savons que la réponse est "oui".∑ni=1xi=y=4068Bθ
Pour obtenir des informations sur la signification de ceci, procédons comme suit (extrait de "Introduction to Mathematical Statistics" de Hogg & Mckean & Craig, 7ème édition, exercice 7.1.9):
" décide de créer de fausses observations, qu'il appelle z 1 , z 2 , … , z n (comme il le sait, elles ne seront probablement pas égales aux valeurs x d' origine ) comme suit. Il note que la probabilité conditionnelle de Poisson indépendant les variables aléatoires Z 1 , Z 2 … , Z n étant égal à z 1 , z 2 , … , z n , étant donné ∑ z i = y , estBz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯ (1n)zn
puisque a une distribution de Poisson avec une moyenne n θ . Cette dernière distribution est multinomiale avec y essais indépendants, chacun se terminant de l'une des n manières mutuellement exclusives et exhaustives, chacune ayant la même probabilité 1 / n . En conséquence, B exécute une telle expérience multinomiale y des essais indépendants et obtient z 1 , … , z n . "Oui= ∑ Zjen θyn1/nByz1,…,zn
C'est ce que dit l'exercice. Alors, faisons exactement cela:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
Et voyons à quoi ressemble (je trace également la densité réelle de Poisson (4) pour k = 0 , 1 , … , 13 - tout ce qui est supérieur à 13 est pratiquement nul -, pour comparaison):Zk=0,1,…,13
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
Donc, ne connaissant rien à et ne connaissant que la statistique suffisante Y = ∑ X i, nous avons pu récupérer une "distribution" qui ressemble beaucoup à une distribution de Poisson (4) (à mesure que n augmente, les deux courbes deviennent plus similaires).θY=∑Xin
Maintenant, comparant et Z | y :XZ|y
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
Nous voyons qu'ils sont assez similaires aussi (comme prévu)
XiY=X1+X2+⋯+Xn