Edit: La question dit maintenant "des millions de nouveaux personnages". Cela facilite la réponse:
Non . Utf-8 est un codage Unicode. Unicode dispose d'un espace de codes qui permet 1 114 112 points de code distincts , et moins d'un million sont actuellement non attribués. Il n'est donc pas possible de prendre en charge des millions de nouveaux caractères dans Unicode. Par définition, aucun codage Unicode ne peut prendre en charge plus de caractères que ceux définis par Unicode. (Bien sûr, vous pouvez tricher en encodant un niveau plus loin - n'importe quel type de données ne peut être représenté que par deux caractères après tout.)
Pour répondre à la question initiale:
Unicode ne prend pas en charge les langues en tant que telles, il prend en charge les caractères - symboles utilisés pour représenter la langue sous forme écrite.
Toutes les langues humaines n’ont pas de représentation écrite. Par conséquent, Unicode ne prend pas en charge toutes les langues humaines. En outre, de nombreux animaux communiquent mais n’ont pas de langue écrite. Les baleines, par exemple, ont une forme de communication assez complexe pour appeler une langue, mais n’ont aucune forme écrite (et ne peuvent pas non plus être capturées par la notation phonétique existante). Donc, même toutes les langues sur terre ne peuvent pas être supportées par Unicode.
Pire encore est quelque chose comme le langage des abeilles. Non seulement il n’a pas de forme écrite, mais il ne peut pas être représenté de manière significative sous forme écrite. La langue est une sorte de danse qui pointe dans une direction mais qui repose sur la position actuelle du soleil. Par conséquent, la danse n’a de valeur d’information qu’à l’endroit et à l’endroit particuliers où elle est exécutée. Une représentation symbolique ou textuelle devrait inclure des informations (emplacement, position du soleil) que le langage des abeilles ne peut actuellement pas exprimer.
Même une forme de communication écrite ou symbolique peut ne pas être possible de représenter en Unicode. Par exemple, les illustrations et les bandes dessinées sans mots ne peuvent pas être prises en charge par Unicode car l'ensemble des glyphes n'est pas fini. Vous remarquerez beaucoup de communication imagée dans les contextes internationaux, comme un aéroport, et il n’est donc pas inconcevable qu’une race d’étrangers voyageant dans l’espace ait évolué pour utiliser un langage imagé.
Même si une race étrangère avait un langage avec un système d'écriture avec un ensemble fini de symboles, ce système pourrait ne pas être pris en charge en Unicode. Unicode s'attend à ce que l'écriture soit une séquence linéaire de symboles. La notation musicale est un exemple de système d'écriture qui ne peut pas être entièrement représenté en Unicode, car la signification est codée à la fois par le choix des symboles et par le placement vertical et horizontal. (Unicode prend en charge les symboles musicaux individuels, mais ne peut pas coder une partition.) Une race extraterrestre qui communiquait à l'aide d'une musique polyphonique (pas rare) ou d'un canal de communication d'une complexité similaire pourrait très bien avoir un système d'écriture ressemblant à une partition d'orchestre. Unicode ne peut pas supporter cela.
Mais supposons, pour des raisons d’argumentation, que toutes les langues, même les langues étrangères, puissent être exprimées sous la forme d’une séquence linéaire de symboles sélectionnés dans un ensemble fini. Unicode est-il assez gros pour une invasion extraterrestre? Unicode a actuellement moins d'un million de points de code non attribués. La langue chinoise contient une centaine de milliers de caractères selon le dictionnaire chinois le plus complet (tous ne sont pas actuellement pris en charge par Unicode en tant que caractères distincts). Ainsi, seules dix langues présentant la complexité du chinois utiliseraient la totalité de l’Unicode. Sur Terre, nous avons des centaines de systèmes d'écriture distincts, mais heureusement, la plupart d'entre eux sont alphabétiques plutôt qu'idéographiques et contiennent donc un petit nombre de caractères. Si toutes les langues écrites utilisaient des idéogrammes tels que le chinois, Unicode ne serait même pas assez grand pour la Terre. L'utilisation des alphabets est dérivée de la parole qui n'utilise qu'un nombre limité de phonèmes, mais cela est particulier pour la physiologie humaine. Ainsi, même une seule planète extraterrestre ne disposant que d’une douzaine de systèmes d’écriture idéographique pourrait dépasser ce que Unicode peut prendre en charge. Maintenant, considérons si cet étranger a déjà envahi d'autres planètes avant la Terre et inclus leurs systèmes d'écriture dans le jeu de caractères à supporter.
L’extension ou la modification des codages actuels, ou l’introduction de nouveaux codages ne résoudra pas ce problème, car le nombre de points de code pris en charge par Unicode est limité.
Donc, la réponse est probablement non.