De nombreux algorithmes d'apprentissage automatique, par exemple les réseaux de neurones, s'attendent à traiter les nombres. Ainsi, lorsque vous avez des données catégorielles, vous devez les convertir. Par catégorique, je veux dire, par exemple:
Marques automobiles: Audi, BMW, Chevrolet ... ID utilisateur: 1, 25, 26, 28 ...
Même si les identifiants des utilisateurs sont des nombres, ils ne sont que des étiquettes et ne signifient rien en termes de continuité, comme l'âge ou la somme d'argent.
Ainsi, l'approche de base semble utiliser des vecteurs binaires pour coder les catégories:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
C'est OK quand il y a peu de catégories, mais au-delà, cela semble un peu inefficace. Par exemple, lorsque vous avez 10 000 identifiants utilisateur à encoder, c'est 10 000 fonctionnalités.
La question est, existe-t-il une meilleure façon? Peut-être une impliquant des probabilités?