Le standard Unicode contient suffisamment de points de code pour que vous ayez besoin de 4 octets pour tous les stocker. C'est ce que fait l'encodage UTF-32. Pourtant, l'encodage UTF-8 les comprime d'une manière ou d'une autre dans des espaces beaucoup plus petits en utilisant quelque chose appelé «encodage à largeur variable».
En fait, il parvient à représenter les 127 premiers caractères de l'US-ASCII en un seul octet qui ressemble exactement au vrai ASCII, vous pouvez donc interpréter beaucoup de texte ascii comme s'il s'agissait de UTF-8 sans rien y faire. Astuce. Alors, comment ça marche?
Je vais poser et répondre à ma propre question ici parce que j'ai juste fait un peu de lecture pour comprendre et j'ai pensé que cela pourrait faire gagner du temps à quelqu'un d'autre. De plus, peut-être que quelqu'un peut me corriger si je me trompe.