Théorème de la limite centrale de la théorie de l'information

11

La forme la plus simple de la théorie de l'information CLT est la suivante:

Soit iid avec la moyenne et la variance . Soit la densité de la somme normalisée et la densité gaussienne standard. Alors la théorie de l'information CLT déclare que, si est fini pour certains , alors comme . $X_1, X_2,\dots$ $0$ $1$ $f_n$ $\frac{\sum_{i=1}^n X_i}{\sqrt{n}}$ $\phi$ $D(f_n\|\phi)=\int f_n \log(f_n/\phi) dx$ $n$ $D(f_n\|\phi)\to 0$ $n\to \infty$

Certes, cette convergence, dans un sens, est "plus forte" que les convergences bien établies dans la littérature, la convergence dans la distribution et la convergence en $L_1$ métrique, grâce à l'inégalité de Pinsker $\left(\int |f_n-\phi|\right)^2\le 2\cdot \int f_n \log(f_n/\phi)$ . C'est-à-dire que la convergence dans la divergence KL implique la convergence dans la distribution et la convergence dans la distance $L_1$ .

Je voudrais savoir deux choses.

Qu'est-ce qui est si génial dans le résultat $D(f_n\|\phi)\to 0$ ?
Est - ce juste à cause de la raison indiquée dans le troisième paragraphe , nous disons que la convergence KL-divergence ( c. -à , $D(f_n\|\phi)\to 0$ ) est plus forte?

NB: J'ai posé cette question il y a quelque temps dans math.stackexchange où je n'ai obtenu aucune réponse.

mathematical-statistics information-theory central-limit-theorem

— Ashok
source

Veuillez fournir un lien vers la question math.SE en double.

— Cardinal

6

Votre affirmation semble supposer implicitement l'existence d'une densité (par rapport à la mesure de Lebesgue). Vous pouvez être intéressé par ce court et délicieux article: AR Barron (1986), Entropy and the Central Limit Theorem Ann. Probab. , vol 14, non. 1, 336-342. ( accès libre ).

— cardinal

2

J'avais déjà regardé ce document. Il a donné une motivation dans la perspective de la théorie de l'information dans le deuxième paragraphe de la page 1. Ce n'était pas si clair pour moi à l'époque. Maintenant ça a l'air bien. Pourtant, si l'on peut expliquer clairement ce qui suit et poster comme réponse, ce serait formidable. "D'après la théorie de l'information, l'entropie relative est la borne supérieure la moins élevée de la redondance (longueur de description moyenne excédentaire) du code de Shannon basée sur la distribution normale lors de la description des quantifications d'échantillons de ." J'ai supprimé cette question dans math.SE car elle n'y a attiré personne

D_{n}

$D_n$

f_{n}

$f_n$

— Ashok

@cardinal: tks pour le joli papier.

— Zen

5

Ce qui est bien avec ce théorème, c'est qu'il suggère des théorèmes limites dans certains contextes où le théorème central limite habituel ne s'applique pas. Par exemple, dans les situations où la distribution d'entropie maximale est une distribution non normale, comme pour les distributions sur le cercle, elle suggère une convergence vers une distribution uniforme.

— kjetil b halvorsen
source

Je ne comprends pas. Comme je l'ai déjà mentionné, la convergence dans la divergence KL implique une convergence dans la distribution, vous savez? Ainsi, chaque fois que le CLT théorique de l'information s'applique, le CLT habituel s'applique également. De plus, la théorie de l'information CLT suppose également une variance finie. Ou est-ce que je manque quelque chose?

— Ashok

2

Ce que je voulais dire, c'est que la méthode de l'entropie suggère ce que la limite pourrait être dans des situations où la limite n'est pas une distribution normale. La limite est alors une distribution qui maximise l'entropie.

— kjetil b halvorsen

3

Après avoir regardé autour de moi, je n'ai trouvé aucun exemple de convergence dans la distribution sans convergence dans l'entropie relative, il est donc difficile de mesurer la «grandeur» de ce résultat.

Pour moi, il semble que ce résultat décrit simplement l'entropie relative des produits de convolution. Il est souvent considéré comme une interprétation alternative et un cadre de preuve du théorème de la limite centrale, et je ne suis pas sûr qu'il ait une implication directe dans la théorie des probabilités (même si c'est le cas dans la théorie de l'information).

À partir de la théorie de l'information et du théorème central limite (page 19).

La deuxième loi de la thermodynamique stipule que l'entropie thermodynamique augmente toujours avec le temps, ce qui implique une sorte de convergence vers l'état de Gibbs. La conservation de l'énergie signifie que reste constant pendant cette évolution temporelle, nous pouvons donc dire dès le début quel état de Gibbs sera la limite. Nous considérerons le théorème de la limite centrale de la même manière, en montrant que l'entropie théorique de l'information augmente à son maximum lorsque nous prenons des convolutions, impliquant une convergence vers le gaussien. Normaliser de manière appropriée signifie que la variance reste constante pendant les convolutions afin que nous puissions dire dès le début quelle gaussienne sera la limite. $E$

— gui11aume
source

2

Il existe de nombreux exemples de convergence dans la distribution sans convergence dans l'entropie relative - chaque fois que les ont une distribution discrète et que le CLT s'applique.

X_{i}

$X_i$

— Mark Meckes

1

$D(f_n\|\phi)\rightarrow 0$ assure qu'il n'y a pas de "distance" entre la distribution de la somme des variables aléatoires et la densité gaussienne en juste à cause de la définition de la divergence KL, c'est donc la preuve lui-même. J'ai peut-être mal compris votre question. $n\rightarrow\infty$

À propos du deuxième point que vous avez nommé, il est répondu dans votre paragraphe.

— un autre utilisateur
source

1

Le CLT normal (Lindberg) indique que la moyenne de l'échantillon converge en distribution vers un RV normal. Cela signifie que le CDF converge point par point vers . Il y a une différence théorique subtile entre cela et le résultat de l'OP qui ne se reflète pas dans votre réponse ici.

Φ

$\Phi$

— AdamO