Je sais que cette question est ancienne et a déjà une réponse acceptée, mais je veux offrir quelques exemples (en espérant que cela sera utile à quelqu'un).
Autant que je sache, les anciens caractères ASCII prenaient un octet par caractère.
Droite. En fait, comme ASCII est un codage 7 bits, il prend en charge 128 codes (dont 95 sont imprimables), il n'utilise donc qu'un demi-octet (si cela a du sens).
De combien d'octets un caractère Unicode a-t-il besoin?
Unicode mappe simplement les caractères aux points de code. Il ne définit pas comment les coder. Un fichier texte ne contient pas de caractères Unicode, mais des octets / octets qui peuvent représenter des caractères Unicode.
Je suppose qu'un caractère Unicode peut contenir tous les caractères possibles de n'importe quelle langue - ai-je raison?
Non, mais presque. Donc, fondamentalement, oui. Mais toujours non.
Alors, de combien d'octets a-t-il besoin par caractère?
Identique à votre 2e question.
Et que signifient UTF-7, UTF-6, UTF-16, etc.? S'agit-il de versions Unicode?
Non, ce sont des encodages. Ils définissent comment les octets / octets doivent représenter les caractères Unicode.
Quelques exemples. Si certains d'entre eux ne peuvent pas être affichés dans votre navigateur (probablement parce que la police ne les prend pas en charge), accédez à http://codepoints.net/U+1F6AA
(remplacer 1F6AA
par le point de code en hexadécimal) pour voir une image.
- U + 0061 LETTRE MINUSCULE LATINE A:
a
- Nº: 97
- UTF-8: 61
- UTF-16: 00 61
- SIGNE DE DROIT D'AUTEUR U + 00A9:
©
- Nº: 169
- UTF-8: C2 A9
- UTF-16: 00 A9
- SIGNE ENREGISTRÉ U + 00AE:
®
- Nº: 174
- UTF-8: C2 AE
- UTF-16: 00 AE
- U + 1337 PHWA SYLLABLE ETHIOPIQUE:
ጷ
- Nº: 4919
- UTF-8: E1 8C B7
- UTF-16: 13 37
- U + 2014 EM DASH:
—
- Nº: 8212
- UTF-8: E2 80 94
- UTF-16: 20 14
- U + 2030 PAR MILLE SIGN:
‰
- Nº: 8240
- UTF-8: E2 80 B0
- UTF-16: 20 30
- SIGNE EURO U + 20AC:
€
- Nº: 8364
- UTF-8: E2 82 AC
- UTF-16: 20 AC
- SIGNE DE MARQUE U + 2122:
™
- Nº: 8482
- UTF-8: E2 84 A2
- UTF-16: 21 22
- U + 2603 SNOWMAN:
☃
- Nº: 9731
- UTF-8: E2 98 83
- UTF-16: 26 03
- TÉLÉPHONE NOIR U + 260E:
☎
- Nº: 9742
- UTF-8: E2 98 8E
- UTF-16: 26 0E
- U + 2614 PARAPLUIE AVEC GOUTTES DE PLUIE:
☔
- Nº: 9748
- UTF-8: E2 98 94
- UTF-16: 26 14
- U + 263A VISAGE BLANC SOURIANT:
☺
- Nº: 9786
- UTF-8: E2 98 BA
- UTF-16: 26 3A
- U + 2691 DRAPEAU NOIR:
⚑
- Nº: 9873
- UTF-8: E2 9A 91
- UTF-16: 26 91
- U + 269B SYMBOLE ATOM:
⚛
- Nº: 9883
- UTF-8: E2 9A 9B
- UTF-16: 26 9B
- AVION U + 2708:
✈
- Nº: 9992
- UTF-8: E2 9C 88
- UTF-16: 27 08
- CROIX LATINE BLANCHE OMBRÉE U + 271E:
✞
- Nº: 10014
- UTF-8: E2 9C 9E
- UTF-16: 27 1E
- U + 3020 VISAGE DE LA MARQUE POSTALE:
〠
- Nº: 12320
- UTF-8: E3 80 A0
- UTF-16: 30 20
- U + 8089 CJK IDÉOGRAPHE UNIFIÉ-8089:
肉
- Nº: 32905
- UTF-8: E8 82 89
- UTF-16: 80 89
- U + 1F4A9 PILE DE POO:
💩
- Nº: 128169
- UTF-8: F0 9F 92 A9
- UTF-16: D8 3D DC A9
- U + 1F680 ROCKET:
🚀
- Nº: 128640
- UTF-8: F0 9F 9A 80
- UTF-16: D8 3D DE 80
D'accord, je m'emballe ...
Faits amusants: