J'essaie de prouver que la matrice d'information observée évaluée à l'estimateur du maximum de vraisemblance faiblement cohérent (MLE) est un estimateur faiblement cohérent de la matrice d'information attendue. C'est un résultat largement cité mais personne ne donne de référence ou de preuve (j'ai épuisé je pense les 20 premières pages de résultats google et mes manuels de statistiques)!
En utilisant une séquence faiblement cohérente de MLE, je peux utiliser la loi faible des grands nombres (WLLN) et le théorème de cartographie continue pour obtenir le résultat que je veux. Cependant, je crois que le théorème de la cartographie continue ne peut pas être utilisé. Au lieu de cela, je pense que la loi uniforme des grands nombres (ULLN) doit être utilisée. Quelqu'un connaît-il une référence qui en a la preuve? J'ai une tentative à l'ULLN mais omettez-le pour l'instant par souci de concision.
Je m'excuse pour la longueur de cette question mais la notation doit être introduite. La notation est comme suit (ma preuve est à la fin).
Supposons que nous ayons un échantillon iid de variables aléatoires avec des densités , où (ici est juste une variable aléatoire générale avec la même densité comme l'un des membres de l'échantillon). Le vecteur est le vecteur de tous les vecteurs échantillons où pour tout . La vraie valeur du paramètre de la densité est et θ N ( Y ) est l'estimateur de la vraisemblance maximale faiblement cohérent (MLE) de θ 0 . Sous réserve des conditions de régularité, la matrice d'informations de Fisher peut être rédigée
où est la matrice de Hesse. L'équivalent de l'échantillon est
où . La matrice d'information observée est;
,
(certaines personnes demandent la matrice est évaluée à θ mais certains ne le font pas). L'échantillon de matrice d'informations observées est;
où .
Je peux prouver la convergence de la probabilité de l'estimateur à I ( θ ) , mais pas de N - 1 J N ( θ N ( Y ) ) à I ( θ 0 ) . Voici ma preuve jusqu'à présent;
Maintenant est l'élément ( r , s ) de J N ( θ ) , pour tout r , s = 1 , … , k . Si l'échantillon est iid, puis par la loi faible des grands nombres (WLLN), la moyenne de ces sommets converge en probabilité vers . Ainsi N - 1 ( J N (θ) pour tout r , s = 1 , … , k , et ainsi N - 1 J N ( θ ) P → I ( θ ) . Malheureusementnous ne pouvons pas conclure simplement N - 1 J N ( θ N ( Y ) ) P → I ( θ en utilisant le théorème de la cartographie continue puisque N - 1 J N ( ⋅ ) n'est pas la même fonction que I ( ⋅ ) .
Toute aide à ce sujet serait grandement appréciée.