Différence entre «information» et «information utile» dans la théorie algorithmique de l'information

Selon Wikipedia :

Informellement, du point de vue de la théorie algorithmique de l'information, le contenu informationnel d'une chaîne équivaut à la longueur de la représentation autonome la plus courte possible de cette chaîne.

Quelle est la définition rigoureuse informelle analogue des "informations utiles"? Pourquoi les "informations utiles" ne sont-elles pas considérées comme le concept le plus naturel ou le plus fondamental; naïvement, il semble qu'une chaîne purement aléatoire doive par définition ne contenir aucune information, donc j'essaie de me faire une idée du fait qu'elle est considérée comme ayant une information maximale selon la définition standard.

information-theory terminology kolmogorov-complexity

— user1247
source

Bienvenue! Veuillez noter que vous pouvez changer votre nom d'utilisateur en quelque chose que les gens sont plus susceptibles de reconnaître lorsque vous devenez un visiteur régulier.

— Raphael

Réponses:

Le concept central ici est la complexité de Kolmogorov , et plus spécifiquement la compressibilité . Pour obtenir une sensation intuitive de compressibilité, considérons deux chaînes et , où . Laisser $A \in \mathbb{B}^*$ $B \in \mathbb{B}^*$ $\mathbb{B} = \{ 0,1 \}$

, et $A = 1010$ $1010$ $1010$ $1010$

. $B = 1011$ $0110$ $0111$ $1001$

Notez que . Comment pourrions-nous quantifier la quantité d'informations ou ? Si l'on pense à la théorie classique de l'information, en général, la transmission d'une chaîne de longueur prend en moyenne bits. Cependant, nous ne pouvons pas dire de combien de bits nous avons besoin pour transmettre une chaîne de longueur spécifique $|A| = |B| = 16$ $A$ $B$ $n$ $n$ . $n$

Pourquoi le contenu informationnel d'une chaîne aléatoire n'est-il pas nul?

En y regardant de plus près, nous pouvons voir qu'en fait . Cependant, il est beaucoup plus difficile de dire si a des motifs évidents dans sa structure, au moins il semble et se sent plus aléatoire que . Parce que nous pouvons trouver un modèle dans , nous pouvons facilement compresser et le représenter avec moins de bits. De même, comme il n'est pas facile de détecter des motifs dans , nous ne pouvons pas le compresser autant. On peut donc dire que a plus d'informations que $A = 10^8$ $B$ $A$ $A$ $A$ $16$ $B$ $B$ $A$ . De plus, une chaîne aléatoire de longueur $n$ a une information maximale car il n'y a aucun moyen de la compresser, et donc de la représenter avec moins de bits. $n$

Quelles sont donc les informations utiles?

Pour des informations utiles , oui, il y a une définition en utilisant une machine de Turing . Les informations utiles dans sont $T$ $x \in \mathbb{B}^*$

min_{T} {l (T) + C (x | T) : T \in {T_{0}, T_{1}, . . .}},

$\min_T \space \{\space l(T) + C(x|T) : T \in \{ T_0, T_1, ... \} \},$

où désigne la longueur d'un codage auto-limitation pour une machine de Turing . La notation est généralement telle que dénote la complexité de Kolmogorov de et la complexité de Kolmogorov conditionnelle de étant donné $l(T)$ $T$ $C(x)$ $x$ $C(x|y)$ $x$ $y$ .

Ici, la quantité d'informations utiles contenues dans . Ce que nous pourrions demander, c'est quel tel sélectionner parmi ceux qui satisfont à l'exigence. Le problème est de séparer un programme le plus court en parties st représente un approprié . C'est en fait l'idée même qui a engendré la longueur minimale de description (MDL) . $T$ $x$ $T$ $x^*$ $x^* = pq$ $p$ $T$

— Juho
source

Cela pourrait être dû au fait que «utile» est difficile à définir. Supposons que nous ayons un message hautement structuré et riche en informations qui peut être compressé au maximum par un facteur au message . Intuitivement, et contiennent la même quantité d'informations utiles; en effet, ils contiennent la même quantité d'informations selon la définition habituelle. Imaginez maintenant un préfixe de de la même longueur que ; il ne doit pas contenir plus d'informations utiles que , donc pas plus que . Cependant, est plus "aléatoire" que , car $x$ $\alpha$ $y$ $x$ $y$ $z$ $x$ $y$ $x$ $y$ $y$ $z$ $z$ peut être comprimé et ne peuvent pas. Donc, si nous essayons d'associer des informations "utiles" à la compressibilité, nous pourrions rencontrer le paradoxe suivant: un préfixe d'un message pourrait avoir des informations "utiles" plus élevées que le message entier, ce qui semble être une contradiction. $y$

— Patrick87
source

Il peut être difficile à définir, et il se peut qu'il ne puisse pas dépendre trivialement de la compressibilité comme le font les "informations", mais cela semble être la définition la plus importante! À l'heure actuelle, "l'information" semble être un alias de la "complexité de Kolmogorov", plutôt qu'une tentative sérieuse de définir l'information au sens habituel, qui dans d'autres contextes doit, par définition, être utile! Est-ce un domaine de recherche actif? Y a-t-il des définitions proposées?

— user1247

@ user1247 Pourquoi pensez-vous que la complexité de Kolmogorov n'est pas sérieuse?

— Juho

@mrm Je le vois comme un concept très sérieux et intéressant, mais je suis mal à l'aise d'appeler ce concept «information». Qu'est-ce que cela signifie pour une chaîne complètement aléatoire de contenir des informations? Les «informations utiles» semblent plus applicables et intéressantes lorsqu'il s'agit de discuter des informations (où «utiles» est implicite) dans le monde réel, dans des discussions philosophiques ou mécaniques quantiques sur les informations transmises ou reçues, par exemple.

— user1247

@ user1247 Une façon peut-être intéressante d'interpréter ma réponse est la suivante: les informations ne sont utiles ou inutiles que si elles sont interprétées. Pour une interprétation fixe, un message peut contenir des informations plus ou moins utiles qu'un autre. Toute théorie de l'information utile devra, à mon avis, prendre en compte de telles interprétations (des mesures régulières comme l'entropie le font aussi, bien qu'implicitement).

— Patrick87

@ Patrick87 Je suis absolument d'accord que toute bonne théorie des "informations utiles" devrait prendre en compte le mécanisme de décryptage. C'est ce qui en fait un problème intéressant! Si vous m'envoyez une chaîne de bits, et en principe je ne peux pas la déchiffrer, alors elle devrait être définie pour ne contenir aucune information utile.

— user1247

D'un point de vue moins formel, je pense que cela peut aider si vous vous détachez du mot "aléatoire", car vous avez raison de dire qu'un ensemble de bits vraiment aléatoires ne stocke aucune information dans un sens pratique. (Si je crypte un ensemble de noms et que je vous envoie les valeurs chiffrées, elles peuvent présenter une complexité de Kolmogorov très élevée, mais cela ne vous aidera pas à déterminer les noms).

Mais pensez-y de cette façon. Si vous voyez un site Web dans une langue étrangère (par exemple le suédois, en supposant que vous ne le parlez pas), il sera plus ou moins aléatoire. Il y aura un certain ordre dans les mots, mais pas beaucoup. Cependant, si vous regardez une page Web avec un texte qui ressemble à ceci: 123456123456123456123456 ... et ainsi de suite, vous pourrez le comprendre plus rapidement. Si vous ne parlez pas suédois, vous pourrez probablement en tirer beaucoup plus, même si la page suédoise dit l'équivalent des "six premiers chiffres répétés séquentiellement". Les sites Web contiennent les mêmes informations, mais l'un vous semble aléatoire. Et pour la quantité d'espace, celle que vous comprenez est beaucoup moins efficace que la page Web suédoise, même si elle stocke les mêmes informations. Vous ne trouverez peut-être pas ces informations "utiles" car elles "

La notion d '"information" est censée être universelle, donc ce qui ressemble à des bits aléatoires - et donc inutiles - pour vous peut stocker beaucoup d'informations à quelqu'un d'autre. La mesure de l'information est destinée à être une propriété intrinsèque de la chaîne et ne peut pas dépendre de ce qui vous semble ou non logique, ni de ce que vous pouvez et ne pouvez pas interpréter.

Un autre point (plus technique) qui peut aider est que je suis un peu malhonnête ici. Comme le souligne Juho, l'information estdéfini par rapport à qui l'interprète. Vous pouvez trouver la page Web suédoise complètement inutile comme véhicule d'information, mais quelqu'un qui parle suédois peut trouver qu'elle contient beaucoup d'informations. La définition reflète cela. Cependant, à partir des mathématiques, nous pouvons apprendre que la différence entre la page Web la plus courte (la plus informative pour l'espace) pour vous communiquer ce site Web et la page Web la plus courte qui peut le communiquer à quelqu'un qui parle suédois ne peut différer que par une constante additive. Pourquoi? Parce que pour vous, en tant que locuteur non suédois, le moyen le plus court de stocker la page que vous pouvez comprendre est "les six premiers entiers répétés séquentiellement". Cela peut être un peu plus long que le suédois.

(Most efficient representation of information in English) \leq (Most efficient representation in Swedish) + (Length of Swedish-English dictionary)

$(\mbox{Most efficient representation of information in English}) \leq (\mbox{Most efficient representation in Swedish}) + (\mbox{Length of Swedish-English dictionary})$ . Cela devient un peu hors sujet de votre question d'origine, mais le point que j'essaie de faire est que peu importe qui lit les informations. La page Web suédoise à l'aspect aléatoire ne vous était pas "utile", mais elle était "utile" à quelqu'un d'autre, et vous n'êtes qu'à une quantité constante d'informations de pouvoir vous-même en faire usage.

— SamM
source