Essayer de compléter les autres réponses ... Quel type d'information est l'information Fisher? Commencez avec la fonction loglikelihood
en fonction de pour , l'espace des paramètres. En supposant que certaines conditions de régularité ne sont pas ici, nous avons
(nous écrirons les dérivées par rapport au paramètre sous forme de points comme ici). La variance est l'information de Fisher
θ θ ∈ Θ E ∂
ℓ(θ)=logf(x;θ)
θθ∈ΘI(θ)=Eθ( ˙ ℓ (θ))2=-Eθ ¨ ℓ (θ)θ ˙ ℓ (θ)=0 ˙ ℓ (θ)E∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
la dernière formule montrant qu'il s'agit de la courbure (négative) de la fonction loglik vraisemblance. On trouve souvent l'estimateur du maximum de vraisemblance (mle) de en résolvant l'équation de vraisemblance lorsque l'information de Fisher est la variance du score est grand, alors la solution de cette équation sera très sensible aux données, donnant un espoir de haute précision du mle. Cela est confirmé au moins asymptotiquement, la variance asymptotique du mle étant l'inverse des informations de Fisher.
θℓ˙(θ)=0ℓ˙(θ)
Comment pouvons-nous interpréter cela? est l'information de vraisemblance sur le paramètre de l'échantillon. Cela ne peut vraiment être interprété que dans un sens relatif, comme lorsque nous l'utilisons pour comparer les plausibilités de deux valeurs de paramètres possibles distinctes via le test du rapport de vraisemblance . Le taux de variation de la loglik vraisemblance est la fonction de score nous indique à quelle vitesse la vraisemblance change, et sa variance combien cela varie d'un échantillon à l'autre, à un paramètre donné valeur, par exemple . L'équation (ce qui est vraiment surprenant!)
θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) ∣ θ = θ 0 θ θ 0ℓ(θ)θℓ(θ0)−ℓ(θ1)ℓ˙(θ)I(θ)θ0
I(θ)=−Eθℓ¨(θ)
nous indique qu'il existe une relation (égalité) entre la variabilité des informations (vraisemblance) pour une valeur de paramètre donnée, , et la courbure de la fonction de vraisemblance pour cette valeur de paramètre. Il s'agit d'une relation surprenante entre la variabilité (variance) de cette statistique et le changement attendu de similitude lorsque nous modifions le paramètre dans un intervalle autour de (pour les mêmes données). C'est vraiment à la fois étrange, surprenant et puissant!
θ0ℓ˙(θ)∣θ=θ0θθ0
Quelle est donc la fonction de vraisemblance? Nous considérons généralement le modèle statistique comme une famille de distributions de probabilité pour les données , indexées par le paramètre un élément de l'espace des paramètres . Nous pensons que ce modèle est vrai s'il existe une valeur telle que les données ont en fait la distribution de probabilité . Nous obtenons donc un modèle statistique en imbriquant la vraie distribution de probabilité de génération de données{f(x;θ),θ∈Θ}xθΘθ0∈Θxf(x;θ0)f(x;θ0)dans une famille de distributions de probabilité. Mais, il est clair qu'une telle imbriquage peut se faire de nombreuses manières différentes, et chacune de ces imbriquations sera un "vrai" modèle, et elles donneront différentes fonctions de vraisemblance. Et, sans un tel encastrement, il n'y a pas de fonction de vraisemblance. Il semble que nous ayons vraiment besoin d'aide, de principes sur la façon de choisir judicieusement un enrobage!
Qu'est-ce que cela signifie? Cela signifie que le choix de la fonction de vraisemblance nous dit comment nous nous attendrions à ce que les données changent, si la vérité changeait un peu. Mais cela ne peut pas vraiment être vérifié par les données, car les données ne donnent que des informations sur la véritable fonction du modèle qui a réellement généré les données, et pas rien sur tous les autres éléments du modèle choisi. De cette façon, nous voyons que le choix de la fonction de vraisemblance est similaire au choix d'un a priori dans l'analyse bayésienne, il injecte des informations non-données dans l'analyse. Examinons cela dans un exemple simple (quelque peu artificiel) et examinons l'effet de l'imbrication de dans un modèle de différentes manières.f(x;θ0)f(x;θ0)
Supposons que sont iid comme . Donc, c'est la vraie distribution génératrice de données. Maintenant, intégrons ceci dans un modèle de deux manières différentes, modèle A et modèle B.
vous pouvez vérifier que cela coïncide pour .X1,…,XnN(μ=10,σ2=1)
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Les fonctions de loglikelihood deviennent
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Les fonctions de score: (dérivées loglikelihood):
et les courbures
donc, les informations Fisher dépendent vraiment de l'imbedding. Maintenant, nous calculons les informations de Fisher à la vraie valeur ,
donc les informations de Fisher sur le paramètre sont un peu plus grandes dans le modèle B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Cela illustre que, dans un certain sens, les informations de Fisher nous indiquent à quelle vitesse les informations des données sur le paramètre auraient changé si le paramètre directeur avait changé de la manière postulée par l'imbedding dans une famille de modèles . L'explication d'informations plus élevées dans le modèle B est que notre famille de modèles B postule que si l'espérance aurait augmenté, la variance aurait également augmenté . De sorte que, sous le modèle B, la variance de l'échantillon contiendra également des informations sur , ce qu'elle ne fera pas sous le modèle A.μ
De plus, cet exemple montre que nous avons vraiment besoin d'une théorie pour nous aider à construire des familles de modèles.