Qu'est-ce que l'identifiabilité du modèle?


38

Je sais qu'avec un modèle non identifiable, on peut dire que les données sont générées par de multiples assignations différentes aux paramètres du modèle. Je sais qu'il est parfois possible de contraindre des paramètres afin qu'ils soient tous identifiables, comme dans l'exemple de Cassella & Berger, 2e éd, section 11.2.

Étant donné un modèle particulier, comment puis-je évaluer s'il est identifiable?

Réponses:


46

Pour l' identifiabilité, nous parlons d'un paramètreθ (qui pourrait être un vecteur), qui s'étend sur un espace de paramètre Θ , et d'une famille de distributions (pour simplifier, pensez aux PDF) indexées par θ que nous écrivons généralement quelque chose comme {fθ|θΘ} . Par exemple,θ pourrait êtreetpourrait êtreθ=βf

fθ(x)=1βex/β, x>0, β>0,
ce qui voudrait dire que . Pour que le modèle soit identifiable, la transformation qui mappe à doit être un-à-un . Compte tenu d' un modèle sur vos genoux, la façon la plus simple de le vérifier est de commencer par l'équation , (cette égalité doit tenir pour (presque) tous dans le support ) et d'essayer d'utiliser l'algèbre (ou un autre argument) pour montrer que cette équation implique en fait .Θ=(0,)θfθfθ1=fθ2xθ1=θ2

Si vous réussissez avec ce plan, votre modèle est identifiable; continuez avec votre entreprise. Sinon, votre modèle n'est pas identifiable ou vous devez rechercher un autre argument. L'intuition est la même, peu importe: dans un modèle identifiable, il est impossible que deux paramètres distincts (qui pourraient être des vecteurs) produisent la même fonction de vraisemblance.

Cela a du sens, car si, pour des données fixes, deux paramètres uniques donnaient la même probabilité, il serait alors impossible de distinguer les deux paramètres candidats en se basant uniquement sur les données. Il serait impossible d' identifier le vrai paramètre, dans ce cas.

Pour l'exemple ci-dessus, l'équation est pour (presque) tous . Si nous prenons les journaux des deux côtés, nous obtenons pour , ce qui implique la fonction linéaire est (presque) identique à zéro. La seule ligne qui fait une telle chose est celle qui a la pente 0 et l’ordonnée à l'origine zéro. J'espère que vous pourrez voir le reste.fθ1=fθ2

1β1ex/β1=1β2ex/β2,
x>0
lnβ1xβ1=lnβ2xβ2
x>0
(1β11β2)x(lnβ1lnβ2)

À propos, si vous pouvez dire en regardant votre modèle qu'il n'est pas identifiable (parfois vous le pouvez), il est courant d'introduire des contraintes supplémentaires sur celui-ci pour le rendre identifiable (comme vous l'avez mentionné). Cela revient à reconnaître que la fonction n'est pas un pour un pour dans , mais elle est un pour un si nous limitons à mentir à l'intérieur . Dans des modèles plus complexes, les équations sont plus difficiles, mais l'idée est la même.f(y)=y2y[1,1]y[0,1]


2
(+1) Belle explication complète et réaliste. Les analogies que vous tracez rendent les concepts clairs.
cardinal

Vous avez certainement répondu à la question que j'ai posée, mais je suis trop novice pour bien comprendre votre réponse. Si vous connaissez une explication qui conviendrait mieux à un novice, faites-le moi savoir.
Jack Tanner

1
@ cardinal, merci. Pour Jack, d'accord, je vois. Que diriez-vous de ceci: s’il ya quelque chose de plus obscur, et si vous me le signalez, je peux essayer de le préciser davantage. Ou, si vous préférez, vous pouvez écrire une autre question demandant une explication "profane" ou des exemples de ces idées. Je pense qu’il est juste de dire que l’identifiabilité est un sujet qui revient généralement après la période d’introduction typique, alors si vous souhaitez expliquer en détail pourquoi vous rencontrez cela maintenant, cela pourrait aider les répondants potentiels.

2
+1, bonne réponse. Il est peut-être intéressant de citer un exemple classique et facile de voir un modèle non identifiable: la version non contrainte de l'ANOVA: Pour y remédier, cellule de référence le codage est généralement utilisé, dans lequel la moyenne d'un niveau est définie comme référence (qui est estimée par l'interception), et la grande moyenne n'est pas explicitement estimée.
yij=μ+α1+α2++αk+εi
gung - Rétablir Monica

23

Une solution consiste à inspecter la matrice de covariance de vos estimations de paramètres. Si deux estimations de paramètres sont parfaitement (approximativement) corrélées l'une avec l'autre ou si une estimation de paramètre est une combinaison (approximativement) linéaire de plusieurs autres, votre modèle n'est pas identifié; les paramètres qui sont des fonctions des autres ne sont pas nécessaires. Dans chacun de ces cas, Σ sera également (approximativement) singulier. Donc, si Σ est approximativement singulier, cela peut vous donner une raison d'être préoccupé par des problèmes d'identifiabilité. (Bien que je ne pense pas que cela permettrait de détecter des relations non linéaires entre estimations de paramètres qui donneraient lieu à une non-identifiabilité).ΣΣΣ

Le problème pratique est qu'il est souvent difficile de calculer pour les modèles compliqués , même légèrement.Σ

Si vous faites un problème de probabilité maximale, alors vous savez que la matrice de covariance asymptotique de vos estimations est égale à l'inverse de l'information de pêcheur évaluée à la MLE. Par conséquent, la vérification de la matrice d'informations sur les pêcheurs pour la singularité (approximative) constitue également un moyen raisonnable d'évaluer l'identifiabilité. Cela fonctionne également lorsque les informations théoriques sur les pêcheurs sont difficiles à calculer car il est souvent possible d'approcher numériquement très précisément un estimateur cohérent de la matrice d'informations sur les pêcheurs, en estimant par exemple le produit externe attendu de la fonction de score par le produit externe moyen observé. .

Si vous ne faites pas de problème de niveau maximal, vous pourrez peut-être maîtriser en simulant les données du modèle, en estimant les paramètres un grand nombre de fois et en calculant un exemple de matrice de covariance.Σ


2
(+1) Bien fait. Je n'avais même pas pensé à aborder cette question sous cet angle.

1
L’idée de calculer une matrice de covariance à partir de données simulées est particulièrement intéressante, c’est que l’on devrait quand même simuler les données pour effectuer un contrôle Cook-Gelman-Rubin .
Jack Tanner
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.