La RFC 3066 donne les détails des valeurs autorisées (accentuation et liens ajoutés):
Tous les sous-étiquettes à 2 lettres sont interprétés comme des codes de pays ISO 3166 alpha-2 de [ISO 3166] , ou attribués ultérieurement par l'agence de maintenance ISO 3166 ou les organismes de normalisation directeurs, indiquant le domaine auquel cette variante linguistique se rapporte.
J'interprète cela comme signifiant que tout code valide à 2 lettres (selon ISO 3166) est valide en tant que sous-étiquette. Le RFC poursuit en déclarant:
Les balises avec des sous-étiquettes secondaires de 3 à 8 lettres peuvent être enregistrées auprès de l'IANA, selon les règles du chapitre 5 de ce document.
En passant, cela ressemble à une faute de frappe, puisque le chapitre 3 semble se rapporter au processus d'enregistrement, pas au chapitre 5.
Une recherche rapide du registre IANA révèle une très longue liste de toutes les sous-étiquettes de langues disponibles. Voici un exemple de la liste (qui serait utilisé comme en-scouse
):
Type: variante
Sous-étiquette: scouse
Description: Scouse
Ajouté: 18/09/2006
Préfixe: en
Commentaires: dialecte anglais Liverpudlian connu sous le nom de 'Scouse'
Il existe toutes sortes de sous-étiquettes disponibles; un parchemin rapide a déjà été révélé fr-1694acad
(17e siècle français).
L'utilité de certaines de ces balises (je dirais la grande majorité de celles-ci), lorsqu'il s'agit de documents conçus pour être affichés dans le navigateur, est limitée. La spécification d'internationalisation du W3C indique simplement:
Les navigateurs et autres applications peuvent utiliser des informations sur la langue du contenu pour fournir aux utilisateurs les informations les plus appropriées ou pour présenter des informations aux utilisateurs de la manière la plus appropriée. Plus le contenu est étiqueté et correctement étiqueté, plus ces applications deviendront utiles et omniprésentes.
J'ai du mal à trouver des informations détaillées sur le comportement des navigateurs lorsqu'ils rencontrent différentes balises de langue, mais elles offriront probablement des avantages aux utilisateurs qui utilisent un lecteur d'écran, qui peuvent utiliser la balise pour déterminer la langue / le dialecte / l'accent dans lequel présenter le contenu.