Disons que je veux créer un classificateur logistique pour un film M. Mes caractéristiques seraient quelque chose comme l'âge de la personne, le sexe, la profession, l'emplacement. Donc, l'ensemble de formation serait quelque chose comme:
- Âge Sexe Profession Lieu Comme (1) / Je n'aime pas (0)
- 23 M Software US 1
- 24 F Docteur UK 0
et ainsi de suite ... Maintenant, ma question est de savoir comment dois-je évoluer et représenter mes fonctionnalités. Une façon que je pensais: diviser l'âge en groupes d'âge, donc 18-25, 25-35, 35 ans et plus, le sexe en tant que M, F, l'emplacement comme les États-Unis, le Royaume-Uni, d'autres. Créez maintenant une fonction binaire pour toutes ces valeurs, donc l'âge aura 3 fonctions binaires correspondant chacune à un groupe d'âge, etc. Ainsi, un homme de 28 ans des États-Unis serait représenté comme 010 10 100 (010-> Groupe d'âge 25-35, 10 -> Homme, 100 -> US)
Quelle pourrait être la meilleure façon de représenter les fonctionnalités ici? De plus, j'ai remarqué dans certains exemples de sklearn que toutes les fonctionnalités ont été mises à l'échelle / normalisées d'une manière ou d'une autre, par exemple, le sexe est représenté par deux valeurs, 0,0045 et -,0,0045 pour les hommes et les femmes. Je n'ai aucune idée de comment faire une mise à l'échelle / mormalisation comme ça?