Je souhaite lier des enregistrements à travers 2 ensembles de données par prénom, nom et année de naissance. Cela pourrait-il être faisable avec l'algorithme EM, et si oui, comment?
Considérez l'exemple suivant dans le 1er exemple: Carl McCarthy, 1967. Je vais rechercher dans tous les enregistrements du 2e jeu de données et attribuer une distance jaro-winkler entre le premier nom et Carl et une distance jaro-winkler entre le nom de famille et McCarthy. Ces distances sont probabilistes tout comme la distance entre les années de naissance. Nous combinons ces 3 probabilités (multiplier? Moyenne?) En 1.
Vient maintenant la partie règle de décision. Classons toutes les probabilités du plus élevé au plus bas. Tout d'abord, nous voulons P (le premier coup correspond)> = seuil. Deuxièmement, nous voulons également P (le premier coup correspond) / P (le deuxième coup correspond)> = seuil si P (le deuxième coup correspond) existe. Troisièmement, nous voulons que le premier hit de ce deuxième jeu de données ne corresponde pas à plus d'une personne dans le premier jeu de données avec Carl McCarthy, 1967.
Comment déterminer ces seuils?
Je préfère les approches en Stata et / ou Perl.
Voir par exemple:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Bien qu'avec cela, je ne suive toujours pas entièrement le pourquoi ou le comment, et ce que sont les entrées et les sorties, ainsi que les hypothèses et leur restrictivité).