J'ai beaucoup de chaînes d'adresse:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Je veux les analyser dans leurs composants:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Mais bien sûr, les données sont sales: elles proviennent de nombreux pays dans de nombreuses langues, écrites de différentes manières, contiennent des fautes d'orthographe, des pièces manquantes, des ordures supplémentaires, etc.
À l'heure actuelle, notre approche consiste à utiliser des règles combinées avec la correspondance de répertoires flous, mais nous aimerions explorer les techniques d'apprentissage automatique. Nous avons étiqueté les données de formation pour l'apprentissage supervisé. La question est, quel genre de problème d'apprentissage automatique est-ce? Il ne semble pas vraiment s'agir d'un regroupement, d'une classification ou d'une régression ...
Le plus proche que je puisse trouver serait de classer chaque jeton, mais alors vous voulez vraiment les classer tous simultanément, en satisfaisant aux contraintes comme "il devrait y avoir au plus un pays;" et vraiment il y a plusieurs façons de tokeniser une chaîne, et vous voulez essayer chacune et choisir la meilleure .... Je sais qu'il existe une chose appelée analyse statistique, mais je n'en sais rien.
Donc: quelles techniques d'apprentissage automatique pourrais-je explorer pour analyser les adresses?