Comment obtenir une base de données de mots en anglais? [fermé]


148

J'ai besoin d'une base de données de chaque mot valide en anglais. J'ai vérifié le /usr/share/dict/wordsfichier, il contient moins de 100k mots. Wikipedia dit que l'anglais compte 475k mots. Où puis-je obtenir la liste complète (orthographe américaine)?

En outre, existe-t-il un site Web unique qui donne également des mots pour d'autres langues, y compris les langues asiatiques et européennes?

Edit: J'ai oublié d'ajouter, je n'ai pas besoin de noms, etc., juste des mots anglais valides.


9
Mon /usr/share/dict/wordsa 479829 mots, donc peut-être qu'il y a une variation ici (et pourrait convenir à d'autres).
marshall.ward

4
wc -l /usr/share/dict/wordssur Mac est de 235886 mots (juillet 2014 - OSX Mavericks 10.9.4)
nelsonic

2
Meilleure liste que j'ai trouvée: raw.githubusercontent.com/docdis/english-words/master/… . Merci à @nelsonic.
james.garriss


1
vous pouvez obtenir une liste de soucis ici marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. recherchez le lien WORDLIST sur la droite
kofifus

Réponses:


75

WordNet base de données peut être utile. Une fois, j'ai travaillé sur un module complémentaire pour Firefox qui traite des mots et toutes sortes d'associations simples à compliquées entre eux et des choses. On dirait que WordNet vous sera très utile.

Le voici au format MySQL . Et celui-ci (lien archivé sur le Web) utilise les données Wordnet v3.0, plutôt que les anciennes données Wordnet 2.0.


ont-ils aussi une liste téléchargeable?

1
Oui, ils vous donnent la possibilité de télécharger leur base de données dans de nombreux formats - CSV, MySQL Database, etc. et ont même des API que vous pouvez utiliser via .Net, Java etc ... Ceci est la page de téléchargement - wordnet.princeton .edu / wordnet / download
user266803


Je ne l'ai pas personnellement téléchargé, mais il était prêt lorsque j'ai commencé à coder. Je ne sais donc pas quels fichiers seront là dans quel téléchargement. Je sais juste que vous pouvez télécharger dans différents formats. Si vous pouvez me dire dans quel format vous voulez, je pourrais peut-être vous aider.
user266803

Cela ressemble vraiment à un projet très intéressant.
Wim Hollebrandse le

36

Vous pouvez trouver ce dont vous avez besoin sur infochimps.org .

Ils ont une liste de 350 000 mots simples (c'est-à-dire non composés) disponibles en téléchargement gratuit.

Liste de mots - 350000+ mots anglais simples

En ce qui concerne les autres langues, vous voudrez peut-être fouiller sur Wiktionary. Voici un lien vers toutes les sauvegardes de la base de données - les informations ne sont pas organisées si probablement, mais si elles ont une langue, vous pouvez télécharger les données au format SQL.


6
Le lien de téléchargement a changé - infochimps.com/datasets
Chris Rae

36
Malheureusement, le fichier infochimps est .xls (un fichier Excel avec les mots répartis sur 6 feuilles de calcul!) ... J'ai extrait les 354986 mots dans un fichier txt : github.com/nelsonic/english-words
nelsonic

@nelsonic merci beaucoup, le lien infochimps est 404

1
@ChrisRae les deux liens ne fonctionnent pas
garg10mai

5
semble inclure des mots mal orthographiés, comme la technologie - probablement parce qu'ils collectent tout ce qui apparaît sur le Web. c'est donc bon pour le craquage / la validation des mots de passe, mais pas pour les applications qui nécessitent de vrais mots (comme les vérificateurs orthographiques, etc.).
max

13

Je ne vois pas http://wordlist.sourceforge.net/ mentionné ici, mais c'est là que je commencerais si je cherchais quelque chose comme ça (et je l'étais, quand je suis tombé sur cette question).

Si vous ne trouvez pas ce que vous voulez là-bas et que vous voulez une liste de mots anglais, vous devriez probablement passer un peu plus de temps à décrire comment reconnaître ce que vous voulez.


1
J'espérais que ces listes plus larges contiendraient des mots avec ponctuation, comme "C ++" ou "C #", mais je n'en ai trouvé aucun. Donc, si c'est ce que vous recherchez, vous pouvez court-circuiter, vous pouvez ignorer celui-ci (et les listes plus étroites dans d'autres réponses).
plaques de cuisson

9

Il n’existe pas de liste «complète». Différentes personnes ont différentes façons de mesurer - par exemple, elles peuvent inclure de l'argot, des néologismes, des phrases à plusieurs mots, des termes offensants, des mots étrangers, des conjugaisons de verbes, etc. Certaines personnes ont même compté un million de mots ! Vous devrez donc décider de ce que vous voulez dans une liste de mots.


3
Merci pour ce lien. Une lecture très éclairante sur le nombre de mots qu'il y a dans la langue anglaise et la futilité d'essayer d'en arriver à un décompte définitif. Pour une lecture plus concise et à jour, il y a aussi ceci: en.oxforddictionaries.com/explore/language-questions/… .
Prometheus

4

Vous pouvez consulter le *spell dictionnaire en-GB utilisé par Mozilla, OpenOffice, de nombreux autres logiciels.


lien sur mozilla en-gb.pyxidium.co.uk/dictionary/en_GB.zip indique que le serveur est introuvable, une mise à jour? merci

@AMB Thx, j'ai mis à jour le lien pour pointer vers une source alternative du dictionnaire à extensions.openoffice.org/en/project/…
mloskot

Et maintenant, le nouveau lien est 404, @mloskot.
james.garriss

@ james.garriss J'ai peur, tout le site extensions.openoffice.org semble être en panne.
mloskot

3

Vous n'avez pas dit pourquoi vous aviez besoin de cette liste. Si quelque chose utilisé comme liste noire pour les vérifications de mot de passe est suffisant, cracklib pourrait être bon pour vous. Il contient plus de 1,5 million de mots.


1
non, pas pour la liste noire. Je fais une sorte de jeu de mots / graphique.

Cela contient beaucoup de "mots indésirables", mais je suis toujours très reconnaissant que vous ayez mis cela ici - c'est parfait pour rechercher des mots spécifiques que les autres dictionnaires n'ont pas (par exemple, camion de pompier)
kangalioo
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.