Dans ce cas, vous pouvez considérer une approximation ABC de la probabilité (et par conséquent du MLE ) sous l'hypothèse / restriction suivante:
Supposition. La taille d'échantillon d'origine est connue.n
Ce n'est pas une hypothèse folle étant donné que la qualité, en termes de convergence, des estimateurs fréquentistes dépend de la taille de l'échantillon, donc on ne peut pas obtenir des estimateurs arbitrairement bons sans connaître la taille de l'échantillon d'origine.
L'idée est de générer un échantillon à partir de la distribution postérieure de et, afin de produire une approximation du MLE , vous pouvez utiliser une technique d'échantillonnage d'importance comme dans [1] ou considérer un a priori uniforme sur θ avec un support sur un réglé comme dans [2] .θθ
Je vais décrire la méthode dans [2]. Tout d'abord, permettez-moi de décrire l'échantillonneur ABC.
Échantillonneur ABC
Soit le modèle qui génère l'échantillon où θ ∈ Θ est un paramètre (à estimer), T une statistique (fonction de l'échantillon) et T 0 la statistique observée, dans le jargon ABC c'est ce qu'on appelle une statistique récapitulative , ρ être une métrique, π ( θ ) une distribution a priori sur θ et ϵ > 0 une tolérance. Ensuite, l'échantillonneur de rejet ABC peut être implémenté comme suit.f(⋅|θ)θ∈ΘTT0ρπ(θ)θϵ>0
- Échantillon de π ( ⋅ ) .θ∗π(⋅)
- Générez un échantillon de taille n à partir du modèle f ( ⋅ | θ ∗ ) .xnf(⋅|θ∗)
- Calculez .T∗=T(x)
- Si , acceptez θ ∗ comme simulation à partir de la partie postérieure de θ .ρ(T∗,T0)<ϵθ∗θ
Cet algorithme génère un échantillon approximatif à partir de la distribution postérieure de étant donné T ( x ) = T 0 . Par conséquent, le meilleur scénario est lorsque la statistique T est suffisante mais que d'autres statistiques peuvent être utilisées. Pour une description plus détaillée de ceci, voir cet article .θT(x)=T0T
Maintenant, dans un cadre général, si l'on utilise un a priori uniforme qui contient le MLE dans son support, le Maximum a posteriori (MAP) coïncide avec l'estimateur du maximum de vraisemblance (MLE). Par conséquent, si vous considérez un uniforme approprié avant dans l'échantillonneur ABC, vous pouvez générer un échantillon approximatif d'une distribution postérieure dont la MAP coïncide avec le MLE. L'étape restante consiste à estimer ce mode. Ce problème a été discuté dans CV, par exemple dans "Estimation efficace du mode multivarié par calcul" .
Un exemple de jouet
Laissez soit un échantillon d'un N ( μ , 1 ) et supposons que la seule information disponible à partir de cet échantillon est ˉ x = 1(x1,...,xn)N(μ,1). Soitρla métrique euclidienne dansRetϵ=0,001. Le code R suivant montre comment obtenir une MLE approximative en utilisant les méthodes décrites ci-dessus en utilisant un échantillon simulé avecn=100etμ=0, un échantillon de la distribution postérieure de taille1000, un a priori uniforme pourμon(-0,3,0,3), et un estimateur de densité de noyau pour l'estimation du mode de l'échantillon postérieur (MAP = MLE).x¯=1n∑nj=1xjρRϵ=0.001n=100μ=01000μ(−0.3,0.3)
rm(list=ls())
# Simulated data
set.seed(1)
x = rnorm(100)
# Observed statistic
T0=mean(x)
# ABC Sampler using a uniform prior
N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1
while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}
# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]
Comme vous pouvez le voir, en utilisant une petite tolérance, nous obtenons une très bonne approximation du MLE (qui dans cet exemple trivial peut être calculé à partir de la statistique étant donné qu'elle est suffisante). Il est important de noter que le choix de la statistique récapitulative est crucial. Les quantiles sont généralement un bon choix pour la statistique récapitulative, mais tous les choix ne produisent pas une bonne approximation. Il se peut que la statistique récapitulative ne soit pas très informative et que la qualité de l'approximation soit alors médiocre, ce qui est bien connu dans la communauté ABC.
Mise à jour: Une approche similaire a récemment été publiée dans Fan et al. (2012) . Voir cette entrée pour une discussion sur le document.