Je travaille actuellement sur un modèle de régression logistique pour la génomique. L'un des champs de saisie que je souhaite inclure en tant que covariable est genes
. Il existe environ 24 000 gènes connus. Il existe de nombreuses fonctionnalités avec ce niveau de variabilité en biologie computationnelle et des centaines de milliers d'échantillons sont nécessaires.
- Si je
LabelEncoder()
ces gènes 24K - et puis
OneHotEncoder()
eux ...
Est-ce que 24 000 colonnes rendront mes temps de formation de keras déraisonnables pour un processeur i7 quad-core 2,2 GHz?
Si oui, existe-t-il une approche différente de l'encodage que je peux adopter avec cela?
Dois-je en quelque sorte essayer de dédier une couche de mon modèle à cette fonctionnalité?
Est-ce à dire que j'ai besoin de 24 000 nœuds d'entrée?