Sur la base des commentaires que j'ai reçus, j'ai examiné cela un peu plus loin. Il semble qu'actuellement, la meilleure pratique consiste à renoncer à utiliser des entités HTML et à utiliser le caractère UTF-8 à la place . Les raisons énumérées sont les suivantes:
- Les encodages UTF-8 sont plus faciles à lire et à modifier pour ceux qui comprennent ce que signifie le caractère et savent comment le saisir.
- Les encodages UTF-8 sont tout aussi inintelligibles que les encodages d'entités HTML pour ceux qui ne les comprennent pas, mais ils ont l'avantage d'être rendus sous forme de caractères spéciaux plutôt que des encodages décimaux ou hexadécimaux difficiles à comprendre.
Tant que le codage de votre page est correctement défini sur UTF-8, vous devez utiliser le caractère réel au lieu d'une entité HTML. J'ai lu plusieurs documents sur ce sujet, mais les plus utiles étaient:
Extrait de l'article UTF-8: The Secret of Character Encoding :
Wikipedia est une excellente étude de cas pour une application qui utilisait à l'origine ISO-8859-1 mais qui est passée à UTF-8 lorsqu'elle est devenue beaucoup trop lourde pour prendre en charge les langues étrangères. Les robots vont désormais parcourir les articles et convertir les entités de caractères en leurs véritables caractères correspondants pour des raisons de convivialité et de recherche .
Cet article donne également un bel exemple impliquant l'encodage chinois. Voici l'exemple abrégé par paresse:
UTF-8:
這兩個字是甚麼意思
Entités HTML :
這兩個字是甚麼意思
Les encodages d'entité UTF-8 et HTML n'ont aucun sens pour moi, mais au moins l'encodage UTF-8 est reconnaissable en tant que langue étrangère , et il sera rendu correctement dans une zone d'édition. L'article poursuit en disant ce qui suit à propos de la version codée par entité HTML:
Extrêmement gênant pour ceux d'entre nous qui savent réellement ce que sont les entités de caractère, totalement inintelligibles pour les utilisateurs pauvres qui ne le savent pas! Même les entités de caractères légèrement plus conviviales et "intelligibles" comme & theta; laissera les utilisateurs qui ne sont pas intéressés par l'apprentissage du HTML se gratter la tête. D'un autre côté, s'ils voient θ dans une zone d'édition, ils sauront qu'il s'agit d'un caractère spécial et le traiteront en conséquence, même s'ils ne savent pas comment écrire ce caractère eux-mêmes.
Comme d'autres l'ont noté, vous devez toujours utiliser des entités HTML pour les caractères XML réservés (esperluette, inférieur à, supérieur à).