Quelqu'un peut-il donner une liste des algorithmes qui exigeraient que les fonctionnalités catégorielles soient codées à chaud et lesquelles ne le seraient pas?
AFAIU, il doit faire plus avec les données particulières , moins avec l' algorithme particulier . Plus précisément, cela dépend de l'existence ou non d'un ordre significatif dans les catégories.
Prenons deux cas. Dans le premier, vous avez les catégories mauvais, meh, bon , et dans le second, vous avez la pomme, l'orange, la poire . Il y a un ordre naturel dans le premier cas, parce que le meh est probablement entre le mauvais et le bon , mais probablement rien de semblable ne se produit dans la pomme, l'orange, la poire .
Si vous évitez le codage à chaud pour le premier cas, vous "perdez" les informations sur la commande. Si vous utilisez l'encodage à chaud pour le deuxième cas, vous attribuez un ordre aux catégories qui n'est pas naturellement vrai.
Je le fais chaque fois que l'algorithme utilise une métrique de distance pour calculer la similitude.
Pourquoi? Supposons que l'une des fonctionnalités soit catégoriquement mauvaise, meh, bonne et que vous ayez trois instances, 1, 2 et 3, où elles sont identiques, sauf que 1 est mauvais , 2 est meh et 3 est bon. Vous voudrez probablement exprimer à l'algorithme que 1 est plus similaire à 2 qu'à 3.