Le code de Huffman pour une distribution de probabilité est le code de préfixe avec la longueur moyenne pondérée minimale du mot de code , où est la longueur du ème mot de code. C'est un théorème bien connu que la longueur moyenne par symbole du code Huffman est comprise entre et , où est l'entropie de Shannon de la distribution de probabilité.
Le mauvais exemple canonique, où la longueur moyenne dépasse l'entropie de Shannon de près de 1, est une distribution de probabilité telle que , où l'entropie est proche de 0 et la longueur moyenne des mots de code est 1. Cela donne un écart entre l'entropie et la longueur du mot de code de près de .
Mais que se passe-t-il quand il y a une limite sur la plus grande probabilité dans la distribution de probabilité? Supposons, par exemple, que toutes les probabilités soient inférieures à . L'écart le plus important que j'ai pu trouver dans ce cas est pour une distribution de probabilité telle que , où l'entropie est légèrement supérieure à 1 et la longueur moyenne des mots de code est légèrement inférieure à 1,5, ce qui donne un écart approchant . Est-ce le mieux que vous puissiez faire? Pouvez-vous donner une limite supérieure sur l'écart strictement inférieur à 1 pour ce cas?
Maintenant, considérons le cas où toutes les probabilités sont très petites. Supposons que vous choisissez une distribution de probabilités sur lettres, chacune ayant la probabilité . Dans ce cas, l'écart le plus important se produit si vous choisissez . Ici, vous obtenez un écart d'environ Est-ce le mieux que vous puissiez faire dans une situation où toutes les probabilités sont faibles?
Cette question est inspirée de cette question TCS Stackexchange .