La forme la plus simple de la théorie de l'information CLT est la suivante:
Soit iid avec la moyenne et la variance . Soit la densité de la somme normalisée et la densité gaussienne standard. Alors la théorie de l'information CLT déclare que, si est fini pour certains n , alors D (f_n \ | \ phi) \ à 0 comme n \ to \ infty .0 1 f n ∑ n i = 1 X i
Certes, cette convergence, dans un sens, est "plus forte" que les convergences bien établies dans la littérature, la convergence dans la distribution et la convergence en métrique, grâce à l'inégalité de Pinsker . C'est-à-dire que la convergence dans la divergence KL implique la convergence dans la distribution et la convergence dans la distance .
Je voudrais savoir deux choses.
Qu'est-ce qui est si génial dans le résultat ?
Est - ce juste à cause de la raison indiquée dans le troisième paragraphe , nous disons que la convergence KL-divergence ( c. -à , ) est plus forte?
NB: J'ai posé cette question il y a quelque temps dans math.stackexchange où je n'ai obtenu aucune réponse.