Ce n'est pas vraiment mon domaine, donc quelques réflexions:
Je vais commencer par le concept de surprise . Que signifie être surpris? Habituellement, cela signifie que quelque chose s'est produit qui n'était pas prévu. Alors, surprenez-le comme un concept probabiliste et peut être expliqué comme tel (IJ Good a écrit à ce sujet). Voir aussi Wikipédia et Bayesian Surprise .
Prenons le cas particulier d'une situation oui / non, quelque chose peut arriver ou non. Cela se produit avec la probabilité p . Disons que si p = 0,9 et cela arrive, vous n'êtes pas vraiment surpris. Si p=0.05 et cela arrive, vous êtes quelque peu surpris. Et si p=0.0000001 et cela arrive, vous êtes vraiment surpris. Ainsi, une mesure naturelle de la "valeur surprise dans le résultat observé" est une fonction (anti) monotone de la probabilité de ce qui s'est passé. Il semble naturel (et fonctionne bien ...) de prendre le logarithme de probabilité de ce qui s'est passé, puis nous ajoutons un signe moins pour obtenir un nombre positif. De plus, en prenant le logarithme, nous nous concentrons sur l'ordre de la surprise, et, dans la pratique, les probabilités ne sont souvent connues que plus ou moins à jour .
Ainsi, nous définissons
Surprise ( A ) = - logp ( A )
où UNE est le résultat observé, et p ( A ) est sa probabilité.
Maintenant, nous pouvons demander quelle est la surprise attendue . Soit X une variable aléatoire de Bernoulli de probabilité p . Il a éventuellement deux résultats, 0 et 1. Les valeurs de surprise respectives sont
Surprise ( 0 )Surprise ( 1 )= - journal( 1 - p )= - journalp
donc la surprise en observantXest elle-même une variable aléatoire avec une attente
p⋅−logp+(1−p)⋅−log(1−p)
et c'est --- surprise! --- l'entropie deX ! L'entropie est doncattendue surprise!
Maintenant, cette question concerne l'entropie maximale . Pourquoi voudrait-on utiliser une distribution d'entropie maximale? Eh bien, ça doit être parce qu'ils veulent être surpris au maximum! Pourquoi voudrait-on cela?
Une façon de voir les choses est la suivante: vous voulez en savoir plus sur quelque chose, et dans ce but vous mettez en place des expériences d'apprentissage (ou des expériences ...). Si vous saviez déjà tout sur ce sujet, vous êtes toujours en mesure de prédire parfaitement, alors ne soyez jamais surpris. Ensuite, vous n'obtenez jamais de nouvelle expérience, alors n'apprenez rien de nouveau (mais vous savez déjà tout --- il n'y a rien à apprendre, donc ça va). Dans la situation la plus typique que vous êtes confus, incapable de prédire parfaitement, il y a une opportunité d'apprentissage! Cela conduit à l'idée que nous pouvons mesurer la «quantité d'apprentissage possible» par la surprise attendue , c'est-à-dire l'entropie. Ainsi, maximiser l'entropie n'est rien d'autre que maximiser les opportunités d'apprentissage. Cela ressemble à un concept utile, qui pourrait être utile dans la conception d'expériences et de telles choses.
Un exemple poétique est le bien connu
Wenn einer eine reise macht, dann kann er était erzählen ...
Un exemple pratique: vous voulez concevoir un système de tests en ligne (en ligne, ce qui signifie que tout le monde ne reçoit pas les mêmes questions, les questions sont choisies dynamiquement en fonction des réponses précédentes, donc optimisées, d'une certaine manière, pour chaque personne).
Si vous posez des questions trop difficiles, afin qu'elles ne soient jamais maîtrisées, vous n'apprenez rien. Cela signifie que vous devez baisser le niveau de difficulté. Quel est le niveau de difficulté optimal, c'est-à-dire le niveau de difficulté qui maximise le taux d'apprentissage? Soit p la probabilité de réponse correcte . Nous voulons la valeur de p qui maximise l'entropie de Bernoulli. Mais c'est p=0.5 . Vous avez donc pour objectif de formuler des questions où la probabilité d'obtenir une réponse correcte (de cette personne) est de 0,5.
Ensuite , le cas d'une variable aléatoire continue X . Comment pouvons-nous être surpris en observant X ? La probabilité d'un résultat particulier {X=x} est nulle, la définition de −logp est inutile. Mais nous serons surpris si la probabilité d'observer quelque chose comme x est petite, c'est-à-dire si la valeur de la fonction de densité f(x) est petite (en supposant que f soit continue). Cela conduit à la définition
Surprise(x)=−logf(x)
Avec cette définition, la surprise attendue de l'observation de X est
E{−logf(X)}=−∫f(x)logf(x)dx
qui est, la surprise attendue de l'observation deX est l'entropie différentielle deX . Il peut également être considéré comme la probabilité de log attendue.
Mais ce n'est pas vraiment la même chose que le premier cas, événement. Trop voir ça, un exemple. Soit la variable aléatoire X représentant la longueur d'un jet de pierre (disons dans une compétition sportive). Pour mesurer cette longueur, nous devons choisir une unité de longueur, car il n'y a pas d'échelle intrinsèque à la longueur, comme il y a à la probabilité. Nous pourrions mesurer en mm ou en km, ou plus généralement en mètres. Mais notre définition de la surprise, donc de la surprise attendue, dépend de l'unité choisie, il n'y a donc pas d'invariance. Pour cette raison, les valeurs d'entropie différentielle ne sont pas directement comparables à celles de l'entropie de Shannon. Il pourrait encore être utile, si l'on se souvient de ce problème.