Déterminant de la matrice d'information de Fisher pour un modèle sur-paramétré


10

Considérons une variable aléatoire de Bernoulli avec le paramètre (probabilité de succès). La fonction de vraisemblance et les informations de Fisher (une matrice ) sont:θ 1 × 1X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Considérons maintenant une version "sur-paramétrisée" avec deux paramètres: la probabilité de réussite θ1 et la probabilité d'échec θ0 . (Notez que θ1+θ0=1 , et cette contrainte implique que l'un des paramètres est redondant.) Dans ce cas, la fonction de vraisemblance et la matrice d'informations de Fisher (FIM) sont:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Notez que les déterminants de ces deux FIM sont identiques. De plus, cette propriété s'étend au cas plus général des modèles catégoriels (c'est-à-dire plus de deux états). Il semble également s'étendre aux modèles log-linéaires avec divers sous-ensembles de paramètres contraints à zéro; dans ce cas, le paramètre extra "redondant" correspond à la fonction de partition logarithmique, et l'équivalence des deux déterminants FIM peut être montrée sur la base du complément Schur du FIM plus grand. (En fait, pour les modèles log-linéaires, le FIM plus petit n'est que le complément Schur du FIM plus grand.)

Quelqu'un peut-il expliquer si cette propriété s'étend à un plus grand ensemble de modèles paramétriques (par exemple à toutes les familles exponentielles), permettant la possibilité de dériver les déterminants FIM sur la base d'un tel ensemble de paramètres "étendu"? C'est-à-dire que tout modèle statistique donné avec paramètres se trouve sur une variété à dimensions incorporée dans un espace à dimensions. Maintenant, si nous étendons l'ensemble de paramètres pour inclure une dimension de plus (qui est totalement contrainte en fonction des autres) et calculons le FIM en fonction de ces paramètres , obtiendrons-nous toujours le même déterminant que celui basé sur l'original paramètres (indépendants)? Aussi, comment ces deux FIM sont-elles liées?nn(n+1)(n+1)n

La raison pour laquelle je pose cette question est que le FIM avec le paramètre supplémentaire semble souvent plus simple. Ma première pensée est que cela ne devrait pas fonctionner en général. Le FIM consiste à calculer des dérivées partielles de la vraisemblance logarithmique de chaque paramètre. Ces dérivées partielles supposent que, tandis que le paramètre en question change, tous les autres paramètres restent constants, ce qui n'est pas vrai une fois que nous impliquons le paramètre supplémentaire (contraint). Dans ce cas, il me semble que les dérivées partielles ne sont plus valables car on ne peut pas supposer que les autres paramètres sont constants; cependant, je n'ai pas encore trouvé de preuve qu'il s'agit en fait d'un problème. (Si les dérivées partielles sont problématiques dans les cas avec des paramètres dépendants, les dérivées totales sont-elles(n+1)×(n+1)besoin à la place? Je n'ai pas encore vu d'exemple de calcul de la FIM avec des dérivées totales, mais c'est peut-être la solution ...)

Le seul exemple que j'ai pu trouver en ligne qui calcule la FIM sur la base d'un ensemble de paramètres "étendu" est le suivant: ces notes contiennent un exemple pour la distribution catégorielle, calculant les dérivées partielles requises comme d'habitude (c'est-à-dire comme si chaque paramètre est indépendant , même si une contrainte est présente parmi les paramètres).


1
Bonne question! Je pense que la spécification à deux paramètres de la variable aléatoire de Bernoulli est un exemple plutôt malheureux, car sans la contrainte, n'est plus lié à la densité. Pouvez-vous reproduire votre observation pour une famille exponentielle courbe, par exemple? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa Je suppose que la contrainte s'applique dans le cas à deux paramètres (celui que vous avez mentionné), donc la fonction de vraisemblance sera toujours une densité valide. Aussi, oui, je peux reproduire cette observation, par exemple pour les modèles log-linéaires avec divers sous-ensembles de paramètres contraints à zéro; dans ce cas, le paramètre "redondant" correspond à la fonction de partition de journal. θ1+θ2=1
Tyler Streeter, du

1
Que diriez-vous de ? N(μ,μ2)
Khashaa

Réponses:


4

Pour normal , la matrice d'informations est Pour la courbe normaleDonc, votre observation selon laquelle les déterminants sont égaux n'est pas universelle, mais ce n'est pas toute l'histoire.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Généralement, si est la matrice d'information sous la reparamétrisation alors, il n'est pas difficile de voir que la matrice d'information pour les paramètres d'origine est où est le jacobien de la transformation .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Pour l'exemple de Bernoulli et . Ainsi, le jacobien est et donc (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Pour un exemple normal courbe,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Je pense que vous pouvez maintenant facilement relier les déterminants.

Suivi après le commentaire

Si je vous ai bien compris, la FIM est valable tant que vous étendez les paramètres de manière significative: la probabilité sous une nouvelle paramétrisation devrait être une densité valide. Par conséquent, j'ai qualifié l'exemple de Bernoulli de regrettable.

Je pense que le lien que vous avez fourni présente un grave défaut dans la dérivation de la FIM pour les variables catégorielles, car nous avons et . L'attente de la Hesse négative donne , mais pas pour la covariance des vecteurs de score. Si vous négligez les contraintes, l'égalité de la matrice d'informations ne tient pas. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Merci d'avoir mentionné l'approche de transformation jacobienne et pour les exemples simples et clairs. Pouvez-vous (ou quelqu'un d'autre) commenter le problème suivant qui me préoccupe toujours: lors de l'extension de l'ensemble de paramètres d'une dimension, comme nous le faisons ici, nous introduisons une contrainte parmi les paramètres de sorte que toute dérivée partielle (comme requis par le FIM) devrait être invalide car maintenant, quand on fait varier un paramètre, les autres ne sont plus constants. Le FIM est-il donc même valable pour l'ensemble étendu de paramètres, étant donné que les dérivées partielles ne sont pas valides en raison de la contrainte supplémentaire?
Tyler Streeter

@TylerStreeter J'ai mis à jour ma réponse pour résoudre votre problème.
Khashaa

3

Il semble que le résultat soit valable pour un type spécifique de relation entre les paramètres.

Sans prétendre à la généralité complète des résultats ci-dessous, je m'en tiens au cas des «un à deux paramètres». Notons l'équation implicite qui exprime la relation qui doit tenir entre les deux paramètres. Ensuite, le log-vraisemblance "correct étendu", "à deux paramètres" (pas ce que l'OP calcule - nous y arriverons)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
est équivalent à la vraie vraisemblance , car , ( est un multiplicateur) et nous pouvons traiter les deux paramètres comme indépendants, tandis que nous différencions.Lg(θ0,θ1)=0λ

En utilisant les indices pour désigner les dérivées par rapport aux paramètres (un dérivé premier indice, deux dérivées deuxième indice), le déterminant de la Hesse de la log-vraisemblance étendue correcte sera

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

Que fait l'OP à la place?

Il considère que la mauvaise probabilité "ignore" la relation entre les deux paramètres, et sans tenir compte de la contrainte . Il procède ensuite à la différenciation et obtientL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

Il est évident que n'est pas en général égal à .(2)(1)

Mais si , alorsg00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Donc, si la relation entre le paramètre réel et le paramètre redondant est telle que les deuxièmes dérivées partielles de la fonction implicite qui les relie sont toutes nulles , l'approche qui est fondamentalement erronée finit par être "correcte".

Pour l'affaire Bernoulli, nous avons en effet

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADDENDUM
Pour répondre à la question @Khashaa et montrer la mécanique ici, nous considérons une vraisemblance spécifiée avec un paramètre redondant, mais également sous une contrainte qui relie le paramètre redondant au vrai. Ce que nous faisons avec les log-vraisemblances, c'est de les maximiser - nous avons donc ici un cas de maximisation contrainte. Supposons un échantillon de taille ,:n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Ce problème a un Langrangean (ce que j'ai appelé officieusement "vraisemblance étendue correcte" ci-dessus),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Les conditions de premier ordre pour un maximum sont

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

pour laquelle on obtient la relation

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

en utilisant la contrainte sous laquelle ce qui précède est valide, on obtientθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

comme il se doit.

De plus, la contrainte étant linéaire dans tous les paramètres, ses dérivées secondes seront nulles. Cela se reflète dans le fait que dans les dérivées premières de la lagrangienne, le multiplicateur "reste seul" et il sera éliminé lorsque nous prendrons les dérivées secondes de la lagrangienne. Ce qui à son tour nous conduira à une Hesse dont le déterminant sera égal à la dérivée seconde (unidimensionnelle) de la vraisemblance logarithmique à un paramètre d'origine, après avoir également imposé la contrainte (ce que fait l'OP). Prendre ensuite le négatif de la valeur attendue dans les deux cas, ne change pas cette équivalence mathématique, et on arrive à la relation "Information Fisher unidimensionnelle = déterminant de l'information Fisher bidimensionnelle". Maintenantλétant donné que la contrainte est linéaire dans tous les paramètres, l'OP obtient le même résultat (au niveau de la dérivée seconde) sans introduire la contrainte avec un multiplicateur dans la fonction à maximiser, car au deuxième niveau dérivé, la présence / l'effet du la contrainte disparaît dans un tel cas.

Tout cela a à voir avec le calcul, pas avec des concepts statistiques.


Je n'arrive pas à suivre votre logique. Pourriez-vous expliquer pourquoi est considéré comme une «log-vraisemblance étendue», «vraisemblable à deux paramètres»? De plus, la Hesse est complètement mystérieuse pour moi. Calculez-vous la matrice d'informations observée? Le
Khashaa

@Khashaa Selon une terminologie établie, le "Hessian" est la matrice des dérivées secondes d'une fonction multivariée.
Alecos Papadopoulos

Il serait utile que les votants ici affichent une réponse - parce que l'exemple spécifique du PO existe - et demande une explication.
Alecos Papadopoulos

Désolé, si ma question n'était pas claire. Ma question était de savoir comment vous avez lié la Hesse à la matrice d'informations, car je ne voyais aucune attente opérer à ce sujet et le résultat semblait être une matrice d'informations observée. Par ailleurs, pouvez-vous expliquer pourquoi est une loglik vraisemblance correcte? Je suppose que vous utilisez une méthode fondée sur des principes pour évaluer la probabilité restreinte, mais je ne comprends pas comment cela fonctionne. Le
Khashaa

@Khashaa J'ai ajouté une exposition en utilisant l'exemple de l'OP.
Alecos Papadopoulos
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.