Le concept central ici est la complexité de Kolmogorov , et plus spécifiquement la compressibilité . Pour obtenir une sensation intuitive de compressibilité, considérons deux chaînes et B ∈ B ∗ , où B = { 0 , 1 } . LaisserA∈B∗B∈B∗B={0,1}
1010 1010 1010 , etA=1010 1010 1010 1010
0110 0111 1001 .B=1011 0110 0111 1001
Notez que . Comment pourrions-nous quantifier la quantité d'informations A ou B ? Si l'on pense à la théorie classique de l'information, en général, la transmission d'une chaîne de longueur n prend en moyenne n bits. Cependant, nous ne pouvons pas dire de combien de bits nous avons besoin pour transmettre une chaîne de longueur spécifique|A|=|B|=16ABnn .n
Pourquoi le contenu informationnel d'une chaîne aléatoire n'est-il pas nul?
En y regardant de plus près, nous pouvons voir qu'en fait . Cependant, il est beaucoup plus difficile de dire si B a des motifs évidents dans sa structure, au moins il semble et se sent plus aléatoire que A . Parce que nous pouvons trouver un modèle dans A , nous pouvons facilement compresser A et le représenter avec moins de 16 bits. De même, comme il n'est pas facile de détecter des motifs dans B , nous ne pouvons pas le compresser autant. On peut donc dire que B a plus d'informations que AA=108BAAA16BBA . De plus, une chaîne aléatoire de longueur na une information maximale car il n'y a aucun moyen de la compresser, et donc de la représenter avec moins de bits.n
Quelles sont donc les informations utiles?
Pour des informations utiles , oui, il y a une définition en utilisant une machine de Turing . Les informations utiles dans x ∈ B ∗ sontTx∈B∗
minT { l(T)+C(x|T):T∈{T0,T1,...}},
où désigne la longueur d'un codage auto-limitation pour une machine de Turing T . La notation est généralement telle que C ( x ) dénote la complexité de Kolmogorov de x et C ( x | y ) la complexité de Kolmogorov conditionnelle de x étant donné yl(T)TC(x)xC(x|y)xy .
Ici, la quantité d'informations utiles contenues dans x . Ce que nous pourrions demander, c'est quel tel T sélectionner parmi ceux qui satisfont à l'exigence. Le problème est de séparer un programme le plus court x ∗ en parties x ∗ = p q st p représente un T approprié . C'est en fait l'idée même qui a engendré la longueur minimale de description (MDL) .TxTx∗x∗=pqpT