D'où viennent les mots dans / usr / share / dict / words?


10

/usr/share/dict/wordscontient beaucoup de mots. Comment cette liste est-elle générée? Son contenu est-il le même sur différents Unices? Existe-t-il une norme dictant ce qu'elle doit contenir?

Tout ce que j'ai pu trouver jusqu'à présent, c'est que sur Ubuntu / Debian, la liste provient des paquets de listes de mots , mais leurs descriptions n'offrent aucune indication sur la façon dont les listes ont été générées.

Réponses:


10

Vous posez plusieurs questions, mais je pense que la principale est:

Existe-t-il une norme dictant ce qu'elle doit contenir?

À ma connaissance, non.

Compte tenu de cela, vos questions connexes:

Comment cette liste est-elle générée? Son contenu est-il le même sur différents Unices?

on répond "ça dépend de chaque Unix différent".

La convention d'inclure une liste de mots dans le système d'exploitation vient de l' spell(1)utilitaire , qui l'utilise pour une procédure de vérification orthographique primitive.

Cette procédure de vérification orthographique est décrite dans l'article académique «Développement d'une liste d'orthographe», par MD McIlroy des Bell Labs, 1982 .

Vous devez vérifier le gestionnaire de packages de votre système d'exploitation pour savoir d'où vient la liste d'orthographe, comment elle est générée et quelles alternatives sont disponibles.

Sur Debian GNU + Linux, par exemple:

  • Le /usr/share/dict/wordsfichier est un lien symbolique géré à l'aide du système «alternatif» Debian.
  • Un package de liste de mots commun fournissant ce lien est le wamericanpackage.
  • La documentation du package pour les wamericanétats de sa liste de mots provient du projet SCOWL (Spell Checker Oriented Word Lists) .

De nombreux autres packages de liste de mots peuvent être installés; ils ont chacun le champ «Fournit: liste de mots»:

$ aptitude search '?provides(wordlist)' | wc -l
34

Sur différents Unices, vous devrez voir le système de package et la documentation pour connaître la provenance et les alternatives de la liste de mots.


2
FWIW: Sur une installation minimale de Centos 7 x64 (où le fichier de mots est absent), a yum install wordsfait l'affaire pour moi.
Wossname
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.