Je travaille actuellement sur un modèle de régression logistique pour la génomique. L'un des champs de saisie que je souhaite inclure en tant que covariable est genes. Il existe environ 24 000 gènes connus. Il existe de nombreuses fonctionnalités avec ce niveau de variabilité en biologie computationnelle et des centaines de milliers d'échantillons sont nécessaires.
- Si je
LabelEncoder()ces gènes 24K - et puis
OneHotEncoder()eux ...
Est-ce que 24 000 colonnes rendront mes temps de formation de keras déraisonnables pour un processeur i7 quad-core 2,2 GHz?
Si oui, existe-t-il une approche différente de l'encodage que je peux adopter avec cela?
Dois-je en quelque sorte essayer de dédier une couche de mon modèle à cette fonctionnalité?
Est-ce à dire que j'ai besoin de 24 000 nœuds d'entrée?