J'ai un tas de descriptions de poste entrées par les utilisateurs. Il y a toutes sortes de fautes d'orthographe et de mauvaises données. c'est à dire:
...
tulane univ hospital
tulip
tullett prebon
...
weik investment
weill cornell university medical center
weis
weiss waldee hohimer dds
welded constrction l.p.
welder
welder
welder
...
Quelles mesures prendriez-vous pour «augmenter» ces valeurs avec des informations liées à l'emploi?
Le mieux que je puisse penser est de le donner au wolfram alpha. Mais je me demande s'il existe d'autres techniques accessibles que je peux utiliser en utilisant python.
Mise à jour: J'ai découvert qu'il existe une classification type des professions , je voudrais vraiment faire correspondre le nom au SOC et le SOC à une gamme de salaires moyens.