Lorsque les algorithmes ML, par exemple Vowpal Wabbit ou certaines des machines de factorisation remportant des concours de taux de clics ( Kaggle ), mentionnent que les fonctionnalités sont «hachées», qu'est-ce que cela signifie réellement pour le modèle? Disons qu'il existe une variable qui représente l'ID d'une annonce Internet, qui prend des valeurs telles que «236BG231». Ensuite, je comprends que cette fonctionnalité est hachée en un entier aléatoire. Mais ma question est:
- L'entier est-il maintenant utilisé dans le modèle, sous forme d'entier (numérique) OU
- la valeur hachée est-elle toujours traitée comme une variable catégorielle et codée à chaud? Ainsi, l'astuce de hachage consiste simplement à économiser de l'espace en quelque sorte avec des données volumineuses?