Je voudrais savoir comment faire correspondre les adresses postales lorsque leur format diffère ou lorsque l'une d'elles est mal orthographiée.
Jusqu'à présent, j'ai trouvé différentes solutions mais je pense qu'elles sont assez anciennes et peu efficaces. Je suis sûr qu'il existe de meilleures méthodes, donc si vous avez des références à lire, je suis sûr que c'est un sujet qui peut intéresser plusieurs personnes.
La solution que j'ai trouvée (des exemples sont en R):
Distance Levenshtein, qui correspond au nombre de caractères que vous devez insérer, supprimer ou modifier pour transformer un mot en un autre.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
La comparaison des phonèmes
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
L'utilisation d'un correcteur orthographique (éventuellement un correcteur bayésien comme celui de Peter Norvig) , mais pas très efficace sur l'adresse je suppose.
J'ai pensé à utiliser les suggestions de Google, mais de même, ce n'est pas très efficace sur les adresses postales personnelles.
Vous pouvez imaginer utiliser une approche supervisée d'apprentissage automatique, mais vous devez avoir stocké les demandes mal orthographiées des utilisateurs pour ce faire, ce qui n'est pas une option pour moi.