D'après votre expérience, quels caractères Unicode, points de code, plages en dehors du BMP (Basic Multilingual Plane) sont les plus courants jusqu'à présent? Ce sont ceux qui nécessitent 4 octets en UTF-8 ou des substituts en UTF-16.
Je m'attendais à ce que la réponse soit des caractères chinois et japonais utilisés dans les noms mais non inclus dans les jeux de caractères multi-octets CJK les plus répandus, mais sur le projet sur lequel je travaille le plus, le Wiktionnaire anglais, nous avons constaté que l' alphabet gothique est beaucoup plus courant jusqu'à présent.
METTRE À JOUR
J'ai écrit quelques outils logiciels pour scanner des Wikipédias entières à la recherche de caractères non BMP et j'ai découvert à ma grande surprise que même dans l'alphabet gothique de Wikipedia japonais, est le plus courant. Ceci est également vrai dans le Wikipedia chinois, mais il y avait aussi de nombreux caractères chinois utilisés jusqu'à 50 ou 70 fois, y compris "𨭎", "𠬠" et "𩷶".