L'information mutuelle comme probabilité

Pourrait l'information mutuelle sur l'entropie conjointe:

0 \leq \frac{I (X, Y)}{H (X, Y)} \leq 1

$0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1$

être défini comme: "La probabilité de transmettre une information de X à Y"?

Je suis désolé d'être si naïf, mais je n'ai jamais étudié la théorie de l'information, et j'essaie juste de comprendre certains concepts de cela.

information-theory mutual-information

— luca maggi
source

Bienvenue sur CV, luca maggi! Quelle jolie première question!

— Alexis

Réponses:

La mesure que vous décrivez s'appelle le rapport de qualité de l'information [IQR] (Wijaya, Sarno et Zulaika, 2017). IQR est l'information mutuelle divisée par "l'incertitude totale" (entropie conjointe) (source de l'image: Wijaya, Sarno et Zulaika, 2017). $I(X,Y)$ $H(X,Y)$

Comme décrit par Wijaya, Sarno et Zulaika (2017),

la plage d'IQR est . La plus grande valeur (IQR = 1) peut être atteinte si DWT peut parfaitement reconstruire un signal sans perdre d'informations. Sinon, la valeur la plus faible (IQR = 0) signifie que le MWT n'est pas compatible avec un signal d'origine. En d'autres termes, un signal reconstruit avec un MWT particulier ne peut pas conserver des informations essentielles et totalement différentes avec les caractéristiques du signal d'origine. $[0,1]$

Vous pouvez l'interpréter comme une probabilité que le signal soit parfaitement reconstruit sans perte d'informations . Notez qu'une telle interprétation est plus proche de l'interprétation subjectiviste de la probabilité , puis de l'interprétation traditionnelle, fréquentiste.

C'est une probabilité pour un événement binaire (reconstruire des informations par rapport à non), où IQR = 1 signifie que nous pensons que les informations reconstruites sont dignes de confiance, et IQR = 0 signifie l'inverse. Il partage toutes les propriétés des probabilités d'événements binaires. De plus, les entropies partagent un certain nombre d'autres propriétés avec probabilités (par exemple, définition d'entropies conditionnelles, indépendance, etc.). Donc ça ressemble à une probabilité et caquine comme ça.

Wijaya, DR, Sarno, R. et Zulaika, E. (2017). Le rapport de qualité de l'information comme nouvelle métrique pour la sélection des ondelettes de la mère. Chemometrics and Intelligent Laboratory Systems, 160, 59-71.

— Tim
source

Comment la fonction IQR est-elle définie pour afin de comparer avec les propriétés de définition de la mesure de probabilité? Présentez-vous et avec où est la fonction caractéristique?

A \subset Ω

$A\subset\Omega$

I (X^{'}, Y^{'})

$I(X',Y')$

H (X^{'}, Y^{'})

$H(X',Y')$

X^{'} := X I (A), Y^{'} := Y I (A)

$X':=XI(A),\, Y':=YI(A)$

I

$I$

— Hans

Eh bien, ma question concerne une partie de votre réponse et non une question indépendante. Suggérez-vous que j'ouvre une nouvelle question et un lien et que je le dirige vers votre réponse?

— Hans

@Hans Ce que j'ai dit, c'est que cette mesure correspond facilement à la définition, corrigez-moi si je me trompe. Les axiomes 1. et 2. sont évidents. Pour l'axiome 3., est le chevauchement, est l'espace total, de sorte que la fraction peut être facilement considérée comme une probabilité.

I (X, Y)

$I(X, Y)$

H (X, Y)

$H(X, Y)$

— Tim

Une probabilité est définie sur un espace échantillon et son champ sigma . Je suis confus quant à ce que ce sont pour cette mesure de probabilité IQR. Il existe déjà un espace échantillon et son champ sigma pour la mesure de probabilité définie pour les variables aléatoires et . L'espace et le champ d'échantillonnage de la nouvelle mesure de probabilité IQR sont-ils les mêmes que ceux de l'ancienne mesure de probabilité associée à et ? Sinon, comment sont-ils définis? Ou, dites-vous que ceux-ci n'ont pas besoin d'être définis? Comment alors le vérifier par rapport aux axiomes?

(Ω, F)

$(\Omega, \mathscr{F})$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

— Hans

@Hans, je l'ai dit explicitement que cela est compatible avec les axiomes, mais il est difficile de dire la probabilité de ce que ce serait exactement. L'interprétation que j'ai suggérée est probablement celle de la reconstruction du signal. Ce n'est pas une distribution de probabilité de X ou Y. Je suppose que vous pourriez approfondir son interprétation et sa compréhension. La question était de savoir si cela pouvait être interprété comme une probabilité et la réponse était formellement oui.

— Tim

Voici la définition d'un espace de probabilité. Utilisons-y les notations. IQR est une fonction d'un tuple (Les trois premières composantes forment l'espace de probabilité sur lequel les deux variables aléatoires sont définies). Une mesure de probabilité doit être une fonction d'ensemble qui satisfait toutes les conditions de la définition énumérée dans la réponse de Tim. Il faudra spécifier comme sous-ensemble d'un ensemble . De plus, l'ensemble des doit former un champ de sous-ensembles de , et que $(\Omega,\mathscr F,P,X,Y)$ $\Theta:=(\Omega,\mathscr F,P,X,Y)$ $\tilde\Omega$ $\Theta$ $\tilde\Omega$ $\text{IQR}(\Omega,\mathscr F,P,X,Y)$ doit satisfaire aux trois propriétés énumérées dans la définition de la mesure de probabilité indiquée dans la réponse de Tim. Tant que l'on ne construit pas un tel objet, il est faux de dire que l'IQR est une mesure de probabilité. Pour ma part, je ne vois pas l'utilité d'une mesure de probabilité aussi compliquée (pas la fonction IQR elle-même mais comme mesure de probabilité). IQR dans le document cité dans la réponse de Tim n'est pas appelé ou utilisé comme probabilité mais comme métrique (le premier est un type de ce dernier, mais le dernier n'est pas un type de l'ancien.).

D'un autre côté, il existe une construction triviale qui permet à tout nombre sur d'être une probabilité. Plus précisément dans notre cas, considérons tout donné . Choisissez un ensemble à deux éléments comme espace échantillon , laissez le champ être et définissez la mesure de probabilité . Nous avons une classe d'espaces de probabilité indexée par . $[0,1]$ $\Theta$ $\tilde\Omega:=\{a,b\}$ $\tilde{\mathscr F}:=2^{\tilde\Omega}$ $\tilde P(a):=\text{IQR}(\Theta)$ $\Theta$

— Hans
source

Pour votre information, j'ai édité ma réponse pour la simplifier et la clarifier. La probabilité est une métrique qui a des propriétés spéciales. Nous parlons d'un ensemble de toutes les paires de messages possibles et de leurs reconstructions . Ici, la variable aléatoire est une fonction compliquée et inconnue qui nous dit si la reconstruction a été "bonne" ou non. Le retour d'une reconstruction fiable peut être considéré comme un événement binaire, ma réponse est simplement que l'IQR peut être pensé comme une probabilité pour un tel événement (ou plutôt une approximation de celui-ci).

(x_{i}, y_{i})

$(x_i, y_i)$

— Tim

@Tim: La version précédente de votre réponse est une bien meilleure réponse car elle fournit une définition claire sur laquelle vous pouvez vérifier. Il n'y a aucun moyen de contourner une définition. La probabilité est une métrique, mais toutes les métriques avec "certaines propriétés spéciales" ne sont pas une probabilité. Jusqu'à ce que nous puissions vérifier que toutes les «propriétés spéciales» de cette métrique correspondent à la définition, elle n'en est pas une. Cependant, j'ai donné une construction triviale d'une classe d'espaces de probabilité indexée par le paramètre tuple .

Θ := (Ω, F, P, X, Y)

$\Theta:=(\Omega,\mathscr F,P,X,Y)$

— Hans

C'est également le cas si vous utilisez un réseau neuronal complexe avec une fonction d'activation sigmoïde à la fin, pouvez-vous prouver que la sortie est une probabilité en termes métriques et théoriques ..? Pourtant, nous choisissons souvent d'interpréter cela comme une probabilité.

— Tim

@Tim: Bien sûr que vous le pouvez. C'est un problème facile à gérer en utilisant la mesure de retrait. La fonction sigmoïde est une fonction mesurable qui stipule déjà les champs sigma du domaine et de la plage ( avec le champ Borel (conventionnel)) de la fonction. La mesure de probabilité d'un sous-ensemble de l'espace d'échantillonnage où est la mesure Borel (conventionnelle) de et est la fonction sigmoïde. QED

[0, 1]

$[0,1]$

A

$A$

P (A) := μ (f (A))

$P(A):=\mu(f(A))$

μ

$\mu$

R

$R$

f

$f$

— Hans

Désolé, mais je n'ai jamais trouvé ce genre de discussions et de théorie des mesures intéressantes, je vais donc me retirer de la discussion. Je ne vois pas non plus votre point ici, d'autant plus que votre dernier paragraphe semble dire exactement la même chose que je disais depuis la mendicité.

— Tim