J'ai un problème de classification avec les données catégorielles et numériques. Le problème auquel je suis confronté est que mes données catégorielles ne sont pas fixes, cela signifie que le nouveau candidat dont je veux prédire l'étiquette peut avoir une nouvelle catégorie qui n'a pas été observée au préalable.
Par exemple, si mes données catégoriques était sex
, les seules étiquettes possibles seraient female
, male
et other
, peu importe quoi. Cependant, ma variable catégorielle est city
telle qu'il pourrait arriver que la personne que j'essaie de prédire ait une nouvelle ville que mon classificateur n'a jamais vue.
Je me demande s'il y a moyen de faire le classement en ces termes ou si je devrais refaire la formation en considérant ces nouvelles données catégoriques.
city
en un nombre basé sur une fonction? Commecity' = f(latitude, longitude)
ça, vous pouvez créer une nouvelle valeur pour n'importe quelle ville