Après beaucoup de chalutage de Cross Validated, je n'ai toujours pas l'impression d'être plus proche de la compréhension de la divergence KL en dehors du domaine de la théorie de l'information. Il est plutôt étrange que quelqu'un ayant une formation en mathématiques trouve beaucoup plus facile de comprendre l'explication de la théorie de l'information.
Pour décrire ma compréhension dans un contexte de théorie de l'information: si nous avons une variable aléatoire avec un nombre fini de résultats, il existe un encodage optimal qui nous permet de communiquer le résultat avec quelqu'un d'autre avec en moyenne le message le plus court (je trouve cela le plus facile à image en termes de bits). La longueur attendue du message dont on aurait besoin pour communiquer le résultat est donnée par si le codage optimal est utilisé. Si vous deviez utiliser un codage sous-optimal, alors la divergence KL nous indique en moyenne combien de temps notre message serait.
J'aime cette explication, car elle traite de manière assez intuitive de l'asymétrie de la divergence KL. Si nous avons deux systèmes différents, c'est-à-dire deux pièces chargées différemment, elles auront des codages optimaux différents. Je ne pense pas instinctivement que l'utilisation de l'encodage du deuxième système pour le premier soit "tout aussi mauvaise" que l'utilisation de l'encodage du premier système pour le second. Sans passer par le processus de réflexion sur la façon dont je me suis convaincu, je suis maintenant assez heureux que vous donne cette "longueur de message supplémentaire attendue", lorsque vous utilisez l'encodage de pour .
Cependant, la plupart des définitions de la divergence KL, y compris Wikipédia, font alors la déclaration (en gardant cela en termes discrets afin qu'elle puisse être comparée à l'interprétation de la théorie de l'information qui fonctionne beaucoup mieux en termes discrets car les bits sont discrets) que si nous avons deux probabilités discrètes distributions, puis KL fournit une mesure de "comment ils sont différents". Je n'ai pas encore vu une seule explication de la façon dont ces deux concepts sont même liés. Il me semble que dans son livre sur l'inférence, Dave Mackay souligne que la compression et l'inférence des données sont fondamentalement la même chose, et je soupçonne que ma question est vraiment liée à cela.
Peu importe si c'est le cas ou non, le genre de question que j'ai à l'esprit concerne les problèmes d'inférence. (Garder les choses discrètes), si nous avons deux échantillons radioactifs, et nous savons que l'un d'eux est un certain matériau avec une radioactivité connue (c'est une physique douteuse mais supposons que l'univers fonctionne comme ça) et ainsi nous connaissons la "vraie" distribution des clics radioactifs que nous devrions mesurer devrait être poissonien avec un connu , est-il juste de construire une distribution empirique pour les deux échantillons et de comparer leurs divergences KL à la distribution connue et dire que le plus faible est plus susceptible d'être ce matériau?
S'éloigner de la physique douteuse, si je sais que deux échantillons sont tirés de la même distribution, mais je sais qu'ils ne sont pas sélectionnés au hasard, comparerait leurs divergences KL à la distribution mondiale connue, me donnerait une idée de la façon dont les échantillons sont biaisés. , par rapport à l'un et à l'autre de toute façon?
Et enfin, si la réponse aux questions précédentes est oui, alors pourquoi? Est-il possible de comprendre ces choses d'un seul point de vue statistique sans établir de liens (éventuellement ténus) avec la théorie de l'information?