Pourquoi l'entropie est-elle maximisée lorsque la distribution de probabilité est uniforme?


32

Je sais que l'entropie est la mesure du caractère aléatoire d'un processus / variable et elle peut être définie comme suit. pour une variable aléatoire X set A : - H(X)=xiAp(xi)log(p(xi)) . Dans le livre sur l'entropie et la théorie de l'information de MacKay, il fournit cette déclaration dans Ch2

L'entropie est maximisée si p est uniforme.

Intuitivement, je peux le comprendre, comme si tous les points de données dans l'ensemble A sont choisis avec une probabilité égale 1/m ( m étant la cardinalité de l'ensemble A ), alors le caractère aléatoire ou l'entropie augmente. Mais si nous savons que certains points de l'ensemble A se produiront avec plus de probabilité que d'autres (par exemple, dans le cas d'une distribution normale, où la concentration maximale de points de données se situe autour de la moyenne et de la petite zone d'écart type qui l'entoure, alors le caractère aléatoire ou l'entropie devrait diminuer.

Mais y a-t-il une preuve mathématique pour cela? Comme l'équation pour H(X) je le différencie par rapport à p(x) et je le mets à 0 ou quelque chose comme ça.

Soit dit en passant, y a-t-il un lien entre l'entropie qui se produit dans la théorie de l'information et les calculs d'entropie en chimie (thermodynamique)?


2
On répond (en passant) à cette question sur stats.stackexchange.com/a/49174/919 .
whuber

Je suis assez confus avec une autre déclaration donnée dans le livre de Christopher Bishops qui déclare que "pour une seule variable réelle, la distribution qui maximise l'entropie est la gaussienne". Il indique également que "la distribution multivariée avec entropie maximale, pour une covariance donnée, est gaussienne". Comment cette déclaration est-elle valable? L'entropie de la distribution uniforme n'est-elle pas toujours maximale?
user76170

6
La maximisation est toujours effectuée sous réserve de contraintes sur la solution possible. Lorsque les contraintes sont que toute probabilité doit disparaître au-delà des limites prédéfinies, la solution d'entropie maximale est uniforme. Lorsque, au contraire, les contraintes sont que l'espérance et la variance doivent être égales à des valeurs prédéfinies, la solution ME est gaussienne. Les déclarations que vous citez doivent avoir été faites dans des contextes particuliers où ces contraintes ont été énoncées ou au moins implicitement comprises.
whuber

2
Je devrais probablement également mentionner que le mot «entropie» signifie quelque chose de différent dans le contexte gaussien que dans la question d'origine ici, car nous discutons ensuite de l'entropie des distributions continues . Cette «entropie différentielle» est un animal différent de l'entropie des distributions discrètes. La principale différence est que l'entropie différentielle n'est pas invariante sous un changement de variables.
whuber

Donc, ce qui signifie que la maximisation est toujours par rapport aux contraintes? Et s'il n'y a pas de contraintes? Je veux dire, je ne peux pas avoir une question comme ça? Quelle distribution de probabilité a l'entropie maximale?
user76170

Réponses:


25

Heuristique, la fonction de densité de probabilité sur avec entropie maximale se révèle être celui qui correspond à un minimum de connaissances de { x 1 , x 2 , . . , . x n } , c'est-à-dire la distribution uniforme.{X1,X2,..,.Xn}{X1,X2,..,.Xn}

Maintenant, pour une preuve plus formelle, considérez ce qui suit:

Une fonction de densité de probabilité sur est un ensemble de nombres réels non négatifs p 1 , . . . , P n qui ajoutent à 1. L' entropie est une fonction continue des n - uplets ( p 1 , . . . 1 /{X1,X2,..,.Xn}p1,...,pnn , et ces points se trouvent dans un sousensemble compact de R n ,sorte qu'il est un n(p1,...,pn)Rnn uplet où l' entropie est maximisée. Nous voulons montrer que cela se produit à et nulle part ailleurs.(1/n,...,1/n)

Supposons que les ne soient pas tous égaux, disons p 1 < p 2 . (Clairement n 1. ) Nous trouverons une nouvelle densité de probabilité avec une entropie plus élevée. Il s'ensuit alors, puisque l'entropie est maximisée à un certain n- tuple, que l'entropie est maximisée uniquement au n- tuple avec p i = 1 / n pour tout i .pjp1<p2n1nnpje=1/nje

Puisque , pour les petits ε positifs, nous avons p 1 + ε < p 2 - ε . L'entropie de { p 1 + ε , p 2 - ε , p 3 , . . . , P n } moins l'entropie de { p 1 , p 2 , p 3 , . . . , pp1<p2εp1+ε<p2-ε{p1+ε,p2-ε,p3,...,pn} est égal{p1,p2,p3,...,pn}

Pour compléter la preuve, nous voulons montrer que cela est positif pour suffisamment petitε. Réécrivez l'équation ci-dessus comme -p1log(1+ε

-p1bûche(p1+εp1)-εbûche(p1+ε)-p2bûche(p2-εp2)+εbûche(p2-ε)
ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Rappelant que pour les petits x , l'équation ci-dessus est - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) qui est positif lorsquelog(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
est suffisamment petit puisque p 1 < p 2 .εp1<p2

Une preuve moins rigoureuse est la suivante:

Considérons d'abord le lemme suivant:

p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q), with equality if and only if p is uniform.

Also, wikipedia has a brief discussion on this as well: wiki


11
J'admire l'effort de présenter une preuve élémentaire (sans calcul). Une démonstration rigoureuse sur une seule ligne est disponible via l' inégalité pondérée AM-GM en notant queexp(H) = (1pje)pjepje1pje=n avec égalité tenant si toutes les 1/pje sont égaux, QED.
whuber

Je ne comprends pas comment bûchen peut être égal à bûchen.
user1603472

4
@user1603472 do you mean i=1npilogn=logn? Its because i=1npilogn=logni=1npi=logn×1
HBeel

@Roland I pulled the logn outside of the sum since it does not depend on i. Then the sum is equal to 1 because p1,,pn are the densities of a probability mass function.
HBeel

Same explanation with more details can be found here: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

Entropy in physics and information theory are not unrelated. They're more different than the name suggests, yet there's clearly a link between. The purpose of entropy metric is to measure the amount of information. See my answer with graphs here to show how entropy changes from uniform distribution to a humped one.

The reason why entropy is maximized for a uniform distribution is because it was designed so! Yes, we're constructing a measure for the lack of information so we want to assign its highest value to the least informative distribution.

Example. I asked you "Dude, where's my car?" Your answer is "it's somewhere in USA between Atlantic and Pacific Oceans." This is an example of the uniform distribution. My car could be anywhere in USA. I didn't get much information from this answer.

However, if you told me "I saw your car one hour ago on Route 66 heading from Washington, DC" - this is not a uniform distribution anymore. The car's more likely to be in 60 miles distance from DC, than anywhere near Los Angeles. There's clearly more information here.

Hence, our measure must have high entropy for the first answer and lower one for the second. The uniform must be least informative distribution, it's basically "I've no idea" answer.


7

The mathematical argument is based on Jensen inequality for concave functions. That is, if f(x) is a concave function on [a,b] and y1,yn are points in [a,b], then: nf(y1+ynn)f(y1)++f(yn)

Apply this for the concave function f(x)=xlog(x) and Jensen inequality for yi=p(xi) and you have the proof. Note that p(xi) define a discrete probability distribution, so their sum is 1. What you get is log(n)i=1np(xi)log(p(xi)), with equality for the uniform distribution.


1
I actually find the Jensen's inequality proof to be a much deeper proof conceptually than the AM-GM one.
Casebash

4

On a side note, is there any connnection between the entropy that occurs information theory and the entropy calculations in chemistry (thermodynamics) ?

Yes, there is! You can see the work of Jaynes and many others following his work (such as here and here, for instance).

But the main idea is that statistical mechanics (and other fields in science, also) can be viewed as the inference we do about the world.

As a further reading I'd recommend Ariel Caticha's book on this topic.


1

An intuitive explanation:

If we put more probability mass into one event of a random variable, we will have to take away some from other events. The one will have less information content and more weight, the others more information content and less weight. Therefore the entropy being the expected information content will go down since the event with lower information content will be weighted more.

As an extreme case imagine one event getting probability of almost one, therefore the other events will have a combined probability of almost zero and the entropy will be very low.


0

Main idea: take partial derivative of each pi, set them all to zero, solve the system of linear equations.

Take a finite number of pi where i=1,...,n for an example. Denote q=1i=0n1pi.

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
Then q=pi for every i, i.e., p1=p2=...=pn.


I am glad you pointed out this is the "main idea," because it's only a part of the analysis. The other part--which might not be intuitive and actually is a little trickier--is to verify this is a global minimum by studying the behavior of the entropy as one or more of the pi shrinks to zero.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.