Qu'est-ce que l'entropie empirique?

Dans la définition des ensembles communs typiques (dans "Elements of Information Theory", ch. 7.6, p. 195), nous utilisons

- \frac{1}{n} \log p (x^{n})

$-\frac{1}{n} \log{p(x^n)}$ comme entropie empirique d'une séquence avec . Je n'ai jamais rencontré cette terminologie auparavant. Il n'est défini explicitement nulle part selon l'index du livre.

n

$n$

p (x^{n}) = \prod_{i = 1}^{n} p (x_{i})

$p(x^n) = \prod_{i=1}^{n}{p(x_i)}$

Ma question est essentiellement la suivante: pourquoi l'entropie empirique n'est pas où est la distribution empirique? $-\sum_{x}{\hat p (x) \log(\hat p(x))}$ $\hat p(x)$

Quelles sont les différences et similitudes les plus intéressantes entre ces deux formules? (en termes de propriétés qu'ils partagent / ne partagent pas).

information-theory entropy

— blubb
source

Les deux expressions ne sont-elles pas algébriquement égales?

— whuber

@whuber: Non, ce sont des quantités différentes, à des fins différentes, je crois. A noter que la première utilise la vraie mesure supposée connue a priori. Le second ne fonctionne pas.

p

$p$

— cardinal

Le premier concerne l'accumulation d'entropie au fil du temps et comment elle se compare à la véritable entropie du système. Le SLLN et le CLT en disent long sur son comportement. Le second concerne l' estimation de l'entropie à partir des données et certaines de ses propriétés peuvent également être obtenues via les deux mêmes outils que nous venons de mentionner. Mais, alors que le premier n'est pas biaisé, le second n'est sous aucun

. Je peux remplir certains détails si cela peut être utile.

p

$p$

— cardinal

@cardinal: Si vous fournissez le commentaire ci-dessus comme réponse (peut-être aussi expliquer ce que sont SLLN et CLT? - Je ne les connais pas), je voterais avec plaisir ...

— blubb

Ok, j'essaierai d'en poster plus plus tard. En attendant, SLLN = "Loi forte des grands nombres" et CLT = "Théorème central limite". Ce sont des abréviations assez standard que vous rencontrerez probablement à nouveau. À votre santé. :)

— cardinal

Réponses:

Si les données sont , qui est un -Séquence à partir d' un espace échantillon , les probabilités de points empiriques sont $x^n = x_1 \ldots x_n$ $n$ $\mathcal{X}$ pour. Iciest un siet zéro sinon. Autrement est la fréquence relative dedans la séquence observée. L'entropiede la distribution de probabilité donnée par les probabilités de points empiriques est

\hat{p} (x) = \frac{1}{n} | {i ∣ x_{i} = x} | = \frac{1}{n} \sum_{i = 1}^{n} δ_{x} (x_{i})

$\hat{p}(x) = \frac{1}{n}|\{ i \mid x_i = x\}| = \frac{1}{n} \sum_{i=1}^n \delta_x(x_i)$

x \in X

$x \in \mathcal{X}$

δ_{x} (x_{i})

$\delta_x(x_i)$

x_{i} = x

$x_i = x$

\hat{p} (x)

$\hat{p}(x)$

x

$x$

Ce dernier identité suit en interchangeant les deux sommes et notant que

De lànous voyons que

H (\hat{p}) = - \sum_{x \in X} \hat{p} (x) \log \hat{p} (x) = - \sum_{x \in X} \frac{1}{n} \sum_{i = 1}^{n} δ_{x} (x_{i}) \log \hat{p} (x) = - \frac{1}{n} \sum_{i = 1}^{n} \log \hat{p} (x_{i}) .

$H(\hat{p}) = - \sum_{x \in \mathcal{X}} \hat{p}(x) \log \hat{p}(x) = - \sum_{x \in \mathcal{X}} \frac{1}{n} \sum_{i=1}^n \delta_x(x_i) \log \hat{p}(x) = -\frac{1}{n} \sum_{i=1}^n \log\hat{p}(x_i).$

\sum_{x \in X} δ_{x} (x_{i}) \log \hat{p} (x) = \log \hat{p} (x_{i}) .

$\sum_{x \in \mathcal{X}} \delta_x(x_i) \log\hat{p}(x) = \log\hat{p}(x_i).$

H (\hat{p}) = - \frac{1}{n} \log \hat{p} (x^{n})

$H(\hat{p}) = - \frac{1}{n} \log \hat{p}(x^n)$

\hat{p} (x^{n}) = \prod_{i = 1}^{n} \hat{p} (x_{i})

$\hat{p}(x^n) = \prod_{i=1}^n \hat{p}(x_i)$

- \frac{1}{n} \log p (x^{n})

$- \frac{1}{n} \log p(x^n)$

p

$p$

— NRH
source

(+1) Ceci fournit une belle illustration de ce que Cover et Thomas appellent "l'étrange caractère autoréférentiel" de l'entropie. Cependant, je ne suis pas sûr que la réponse réponde (directement) aux préoccupations apparentes du PO. :)

— cardinal

@cardinal, je sais, et la réponse était juste un long commentaire pour faire ce point particulier. Je ne voulais pas répéter vos points.

— NRH

Vous ne devriez pas vous sentir mal ou hésiter à poster votre propre réponse, y compris un développement de mes commentaires ou ceux des autres. Je suis particulièrement lent et mauvais à publier des réponses, et je ne m'offusquerai jamais si vous ou d'autres publiez des réponses qui incorporent des aspects sur lesquels j'ai peut-être brièvement commenté précédemment. Plutôt le contraire, en fait. À votre santé.

— cardinal

L'entropie est définie pour les distributions de probabilité. Lorsque vous n'en avez pas, mais seulement des données, et que vous branchez un estimateur naïf de la distribution de probabilité, vous obtenez une entropie empirique. C'est plus facile pour les distributions discrètes (multinomiales), comme indiqué dans une autre réponse, mais cela peut aussi être fait pour d'autres distributions par binning, etc.

Un problème avec l'entropie empirique est qu'elle est biaisée pour les petits échantillons. L'estimation naïve de la distribution de probabilité montre une variation supplémentaire due au bruit d'échantillonnage. Bien sûr, on peut utiliser un meilleur estimateur, par exemple, un a priori approprié pour les paramètres multinomiaux, mais il n'est pas facile de l'obtenir vraiment sans biais.

Ce qui précède s'applique également aux distributions conditionnelles. De plus, tout est relatif au binning (ou kernelization), donc vous avez en fait une sorte d'entropie différentielle.

— scellus
source

Nous devons être prudents avec ce que nous appelons ici l' entropie empirique . Notez que l'estimateur plug-in est toujours biaisé bas pour toutes les tailles d'échantillon, bien que le biais diminue à mesure que la taille de l'échantillon augmente. Il est non seulement difficile d'obtenir des estimateurs sans biais pour l'entropie, mais plutôt impossible dans le cas général. Il y a eu des recherches assez intenses dans ce domaine au cours des dernières années, en particulier dans la littérature en neurosciences. En fait, beaucoup de résultats négatifs existent.

— cardinal