Explication intuitive de Fisher Information et Cramer-Rao liés

59

Je ne suis pas à l'aise avec les informations de Fisher, ce qu'elles mesurent et en quoi elles sont utiles. De plus, sa relation avec la borne Cramer-Rao ne m'est pas apparente.

Quelqu'un peut-il s'il vous plaît donner une explication intuitive de ces concepts?

estimation intuition fisher-information

— Infini
source

1

Y a-t-il quelque chose dans l'article de Wikipedia qui pose des problèmes? Il mesure la quantité d'informations qu'une variable aléatoire observable porte sur un paramètre inconnu dont dépend la probabilité de , et son inverse est la borne inférieure de Cramer-Rao sur la variance d'un estimateur sans biais de .

X

$X$

θ

$\theta$

X

$X$

θ

$\theta$

— Henry

2

Je comprends cela, mais je ne suis pas vraiment à l'aise avec cela. Par exemple, que signifie exactement «quantité d’informations» ici? Pourquoi l'espérance négative du carré de la dérivée partielle de la densité mesure-t-elle cette information? D'où vient l'expression, etc. C'est pourquoi j'espère avoir une certaine intuition à ce sujet.

— Infinity

@Infinity: le score est le taux de variation proportionnel de la vraisemblance des données observées lorsque le paramètre change, et est donc utile pour l'inférence. L'information de Fisher la variance du score (moyenne nulle). Ainsi, mathématiquement, il s’agit de l’attente du carré de la première dérivée partielle du logarithme de la densité, de même que du négatif de l’attente de la dérivée seconde du logarithme de la densité.

— Henry

32

J'explique ici pourquoi la variance asymptotique de l' estimateur du maximum de vraisemblance est la limite inférieure de Cramer-Rao. Espérons que cela donnera un aperçu de la pertinence des informations de Fisher.

L'inférence statistique se poursuit avec l'utilisation d'une fonction de vraisemblance que vous construisez à partir des données. L'estimation du point est la valeur qui maximise . L'estimateur est une variable aléatoire, mais il est utile de comprendre que la fonction de vraisemblance est une "courbe aléatoire". $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$

Nous supposons ici que les données iid proviennent d’une distribution et définissons la vraisemblance $f(x|\theta)$

L (θ) = \frac{1}{n} \sum_{i = 1}^{n} \log f (x_{i} | θ)

$\mathcal{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \log f(x_i|\theta)$

Le paramètre a la propriété de maximiser la valeur de la "vraie" vraisemblance, . Cependant, la fonction de vraisemblance "observée" qui est construite à partir des données est légèrement "décalée" par rapport à la vraisemblance. Pourtant, comme vous pouvez l'imaginer, à mesure que la taille de l'échantillon augmente, la probabilité "observée" converge vers la forme de la courbe de vraisemblance. Il en va de même pour la dérivée de la vraisemblance par rapport au paramètre, la fonction de score . (En résumé, les informations de Fisher déterminent la rapidité avec laquelle la fonction de score observée converge vers la forme de la vraie fonction de score. $\theta$ $\mathbb{E}\mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\partial \mathcal{L}/\partial \theta$

Pour un échantillon de grande taille, nous supposons que notre estimation de vraisemblance maximale est très proche de . Nous zoomons sur un petit voisinage autour de et sorte que la fonction de vraisemblance soit "localement quadratique". $\hat{\theta}$ $\theta$ $\theta$ $\hat{\theta}$

Là, est le point où la fonction de partition intersecte l'origine. Dans cette petite région, nous traitons la fonction score comme une ligne , avec pente et une interception aléatoire à . Nous savons de l'équation pour une ligne que $\hat{\theta}$ $\partial \mathcal{L}/\partial \theta$ $a$ $b$ $\theta$

a (\hat{θ} - θ) + b = 0

$a(\hat{\theta} - \theta) + b = 0$

ou

\hat{θ} = θ - b / a .

$\hat{\theta} = \theta - b/a .$

De la cohérence de l'estimateur MLE, nous savons que

E (\hat{θ}) = θ

$\mathbb{E}(\hat{\theta}) = \theta$

dans la limite.

Par conséquent, asymptotiquement

n V a r (\hat{θ}) = n V a r (b / a)

$nVar(\hat{\theta}) = nVar(b/a)$

Il s'avère que la pente varie beaucoup moins que l'interception, et asymptotiquement, nous pouvons considérer que la fonction score a une pente constante dans un petit voisinage autour de . Ainsi on peut écrire $\theta$

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b)$

Alors, quelles sont les valeurs de et ? Il s’avère qu’en raison d’une merveilleuse coïncidence mathématique, il s’agit de la même quantité (modulo un signe moins), l’information de Fisher. $a$ $nVar(b)$

- a = E [- \frac{\partial^{2} L}{\partial θ^{2}}] = I (θ)

$-a = \mathbb{E}\left[-\frac{\partial^2 \mathcal{L}}{\partial \theta^2}\right] = I(\theta)$

n V a r (b) = n V a r [\frac{\partial L}{\partial θ}] = I (θ)

$nVar(b) = nVar\left[\frac{\partial \mathcal{L}}{\partial \theta}\right] = I(\theta)$

Ainsi,

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b) = (1 / I (θ)^{2}) I (θ) = 1 / I (θ)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b) = (1/I(\theta)^2)I(\theta) = 1/I(\theta)$ asymptotique : la limite inférieure de Cramer-Rao. (Montrer que est la limite inférieure de la variance d'un estimateur non biaisé est une autre affaire.)

1 / I (θ)

$1/I(\theta)$

— charles.y.zheng
source

2

Existe-t-il une représentation graphique de la partie où vous mentionnez que la fonction de vraisemblance est localement quadratique?

— Quirik

@quirik, envisagez d'utiliser l'extension de second ordre de Taylor autour de theta_hat.

— idnavid

@ charles.y.zheng C'est l'une des explications les plus intéressantes de la scène.

— idnavid

13

Je comprends les informations du pêcheur comme suit:

I (θ) = \int_{X} \frac{\partial^{2} f (x | θ)}{\partial θ^{2}} d x - \int_{X} f (x | θ) \frac{\partial^{2}}{\partial θ^{2}} \log [f (x | θ)] d x

$I(\theta)=\int_{\cal{X}} \frac{\partial^{2}f(x|\theta)}{\partial \theta^{2}}dx-\int_{\cal{X}} f(x|\theta)\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x|\theta)]dx$

Les informations de Fisher peuvent être écrites de cette manière chaque fois que la densité est deux fois différentiable. Si l'espace échantillon ne dépend pas du paramètre , nous pouvons utiliser la formule intégrale de Leibniz pour montrer que le premier terme est zéro (différencier les deux côtés de deux fois et vous obtenez zéro), et le deuxième terme est la définition "standard". Je vais prendre le cas lorsque le premier terme est égal à zéro. Les cas où ce n'est pas zéro ne sont pas très utiles pour comprendre les informations de Fisher. $f(x|\theta)$ $\cal{X}$ $\theta$ $\int_{\cal{X}} f(x|\theta)dx=1$

Maintenant, lorsque vous effectuez une estimation du maximum de vraisemblance (insérez "conditions de régularité" ici), vous définissez

\frac{\partial}{\partial θ} \log [f (x | θ)] = 0

$\frac{\partial}{\partial \theta}\log[f(x|\theta)]=0$

Et résoudre pour . Ainsi, la seconde dérivée indique la rapidité avec laquelle le gradient change et, dans un sens, "jusqu'à quel point" peut s'écarter de la MLE sans effectuer de changement appréciable dans la partie droite de l'équation ci-dessus. Une autre façon de penser est d’imaginer une "montagne" dessinée sur le papier - c’est la fonction log-vraisemblance. La résolution de l’équation MLE ci-dessus vous indique où se situe le sommet de cette montagne en fonction de la variable aléatoire . La deuxième dérivée vous indique l’altitude de la montagne - ce qui vous dit, en un sens, qu’il est facile de trouver le sommet de la montagne. Les informations de Fisher proviennent de la prise en compte de la pente attendue du pic, ce qui donne une interprétation "pré-donnée". $\theta$ $\theta$ $x$

Une chose que je trouve toujours curieuse est que sa log-vraisemblance est raide, et non pas comment une autre fonction monotone de la vraisemblance est (peut-être liée aux fonctions de notation "appropriées" dans la théorie de la décision? Ou peut-être aux axiomes de cohérence de l'entropie ?)

Les informations de Fisher "apparaissent également" dans de nombreuses analyses asymptotiques en raison de ce que l’on appelle l’approximation de Laplace. Ceci est essentiellement dû au fait que toute fonction avec une augmentation unique "bien arrondie" à une puissance de plus en plus élevée passe dans une fonction gaussienne (similaire au théorème de la limite centrale, mais légèrement plus général). Ainsi, lorsque vous avez un grand échantillon, vous vous trouvez effectivement dans cette position et vous pouvez écrire: $\exp(-ax^{2})$

f (d a t a | θ) = \exp (\log [f (d a t a | θ)])

$f(data|\theta)=\exp(\log[f(data|\theta)])$

Et quand vous pouvez développer le log-vraisemblance sur le MLE:

f (d a t a | θ) \approx [f (d a t a | θ)]_{θ = θ_{M L E}} \exp (- \frac{1}{2} {[- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)]]}_{θ = θ_{M L E}} (θ - θ_{M L E})^{2})

$f(data|\theta)\approx [f(data|\theta)]_{\theta=\theta_{MLE}}\exp\left(-\frac{1}{2}\left[-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]\right]_{\theta=\theta_{MLE}}(\theta-\theta_{MLE})^{2}\right)$ et cette dérivée seconde du log-vraisemblance apparaît (mais sous la forme "observée" au lieu de "attendue"). Ce qui est généralement fait ici est de faire une approximation plus poussée:

- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)] = n (- \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial^{2}}{\partial θ^{2}} \log [f (x_{i} | θ)]) \approx n I (θ)

$-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]=n\left(-\frac{1}{n}\sum_{i=1}^{n}\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x_{i}|\theta)]\right)\approx nI(\theta)$

Ce qui revient à l'approximation généralement bonne de remplacer une somme par une intégrale, mais cela nécessite que les données soient indépendantes. Ainsi, pour les grands échantillons indépendants (donnés ), vous pouvez voir que les informations de Fisher déterminent la variable de la MLE, pour diverses valeurs de la MLE. $\theta$

— probabilislogic
source

1

"Une chose que je trouve toujours curieuse est que le log-vraisemblance est raide, et non pas à quel point une autre fonction monotone de la vraisemblance est abrupte." Je suis sûr que vous pourriez obtenir des analogues pour les informations de Fisher en termes d’autres transformations de la probabilité, mais vous ne seriez pas aussi éloquent pour la limite inférieure de Cramer-Rao.

— charles.y.zheng

2

C'est l'article le plus intuitif que j'ai vu jusqu'à présent:

La limite inférieure de Cramér-Rao sur la variance: le «principe d'incertitude» d'Adam et Eve par Michael R. Powers, Journal of Risk Finance, vol. 7, n ° 3, 2006

La liaison est expliquée par une analogie d'Adam et Eve dans le jardin d'Éden, jetant une pièce pour savoir qui doit manger le fruit, puis ils se demandent à quel point un échantillon est nécessaire pour atteindre un certain niveau de précision dans leur estimation. et ils découvrent alors cette limite ...

Belle histoire avec un message profond sur la réalité.

— vonjd
source

6

Merci d'avoir posté cette référence. À la fin, j’ai cependant été déçu de constater que cela n’explique pas vraiment le CRLB. Il se contente de l'indiquer, sans fournir aucune indication sur la raison pour laquelle c'est vrai, et fournit uniquement un langage évocateur mais finalement dénué de sens, tel que "compresser l'information", dans le but de l'expliquer.

— whuber

@ Whuber: Très bien, je conviens que cela pourrait plonger plus profondément et que la fin est un peu abrupte. Cependant, ce que j’aime dans cet article, c’est qu’il semble naturel qu’il existe un lien entre la taille de l’échantillon, la moyenne de l’échantillon, la loi des grands nombres et que la variance de l’échantillon ne peut être réduite que jusqu’à un certain point (c.- à-d. certains liés , qui se trouve être celui mentionné ci-dessus). Il est également clair qu'il ne s'agit pas d'un résultat mathématique insaisissable, mais bien d'une déclaration sur les limites de l'acquisition de connaissances sur la réalité.

— vonjd

2

Bien que les explications fournies ci-dessus soient très intéressantes et que j'aime bien les parcourir, j'estime que la nature de la limite inférieure de Cramer-Rao m'a été mieux expliquée d'un point de vue géométrique. Cette intuition est un résumé du concept des ellipses de concentration du chapitre 6 du livre de Scharf sur le traitement du signal statistique .

Considérons tout estimateur non biaisé de . De plus, supposons que l'estimateur ait une distribution gaussienne avec une covariance . Dans ces conditions, la distribution de est proportionnelle à: ${\boldsymbol\theta}$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\Sigma}$ $\hat{\boldsymbol\theta}$

$f(\hat{\boldsymbol\theta})\propto \exp(-\frac{1}{2}(\hat{\boldsymbol\theta}-{\boldsymbol\theta})^T{\boldsymbol\Sigma}^{-1}(\hat{\boldsymbol\theta}-{\boldsymbol\theta}))$ .

Imaginons maintenant les courbes de niveau de cette distribution pour . Toute contrainte supérieure de la probabilité de (ie, ) donnera un ellipsoïde centré sur à rayon fixe . Il est facile de montrer qu’il existe une relation un-à-un entre le rayon de l’ellipsoïde et la probabilité souhaitée . En d'autres termes, est proche de au sein d'un ellipsoïde déterminé par le rayon avec une probabilité ${\boldsymbol\theta}\in R^2$ $\hat{\boldsymbol\theta}$ $\int f(\hat{\boldsymbol\theta})d{\boldsymbol\theta} \le P_r$ ${\boldsymbol\theta}$ $r$ $r$ $P_r$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\theta}$ $r$ $P_r$ . Cet ellipsoïde est appelé ellipsoïde de concentration.

Considérant la description ci-dessus, nous pouvons dire ce qui suit à propos du CRLB. Parmi tous les estimateurs sans biais, le CRLB représente un estimateur covariance qui, pour la probabilité fixe de "proximité" (tel que défini ci - dessus), a le plus petit ellipsoïde de concentration. La figure ci-dessous fournit une illustration 2D (inspirée de l'illustration du livre de Scharf ). $\hat{\boldsymbol\theta}_{crlb}$ $\boldsymbol\Sigma_{crlb}$ $P_r$

— idnavid
source

2

Eh bien, c’est génial, surtout l’image, il faut plus de votes positifs.

— Astrid