Pour commencer avec les bases, tout est basé sur US-ASCII qui est un code 7 bits avec 128 points de code dans l'ensemble, hexadécimal numéroté 00 à 7F ou décimal 0-127. Ceci est mappé aux codes de contrôle, aux caractères alphanumériques anglais et aux signes de ponctuation de base
L'ajout de 1 bit à cela pour un code 8 bits (octet) nous donne encore 128 points de code ou ASCII étendu.
Des jeux de caractères / pages de codes ont été nécessaires au début pour changer la façon dont le code pointe dans les 128 bits supérieurs mappés sur des caractères pour couvrir l'alphabet pour la langue particulière que vous souhaitez représenter. Cela fonctionne assez bien pour la plupart des langues d'Europe occidentale. ISO 8859-1 / Latin-1 est un exemple d'un tel jeu de caractères. Un autre est Windows-1252 qui a des changements par rapport à ISO 8859-1 pour l'aider à couvrir plus ou différents caractères.
Les langues avec des jeux de caractères plus complexes comme le chinois, le japonais et le coréen dépassent les capacités du jeu de 256 points de code et utilisent un code à deux octets pour permettre leur représentation.
Unicode UTF-8 est un schéma de codage de caractères multi-octets (1-4 octets) avec une compatibilité descendante avec ISO 8859-1 / Latin-1 étant ses 128 premiers caractères. Il a de la place pour plus d'un million de points de code, ce qui signifie que chaque point de code peut réellement représenter un caractère, contrairement au détournement effectué avec Extended ASCII, ce qui signifie qu'un point de code correspond à un caractère différent, en fonction du jeu de caractères / page de code / codage.
Les polices sont des glyphes qui sont mappés à des points de code et représentent visuellement des caractères. Le contenu d'une police dépend des langues qu'elle était censée couvrir à l'origine. Vous pouvez utiliser la table des caractères pour voir quels glyphes sont contenus dans la police.
Les polices Unicode ne couvrent pas nécessairement tous les points de code, vous devez voir où elles étaient destinées à être utilisées. Par exemple, dans Windows 7 , lancez la table des caractères et affichez les personnages dans Calibri, puis comparez-les à Ebrima, Meiryo et Raavi. Notez qu'ils sont très différents car chacun est adapté à une région géographique différente.
En ce qui concerne les polices Unicode et le jeu de caractères Windows-1252, Windows utilise une table de mappage pour traduire Windows-1252 en Unicode où il ne correspond pas à ISO 8859-1 pour un scénario "Best Fit" où certains caractères du caractère Windows-1252 l'ensemble peut ne pas s'afficher.