J'ai un ensemble de données avec 330 échantillons et 27 fonctionnalités pour chaque échantillon, avec un problème de classe binaire pour la régression logistique.
Selon la «règle si dix», j'ai besoin d'au moins 10 événements pour chaque fonctionnalité à inclure. Cependant, j'ai un ensemble de données déséquilibré, avec 20% de classe positive et 80% de classe négative.
Cela ne me donne que 70 événements, ce qui permet d'inclure environ 7/8 fonctionnalités seulement dans le modèle logistique.
J'aimerais évaluer toutes les fonctionnalités en tant que prédicteurs, je ne veux pas choisir de fonctionnalités à la main.
Alors, qu'est-ce que vous suggérez? Dois-je faire toutes les combinaisons de 7 fonctionnalités possibles? Dois-je évaluer chaque fonctionnalité seule avec un modèle d'association, puis choisir uniquement les meilleures pour un modèle final?
Je suis également curieux de savoir comment gérer les fonctionnalités catégoriques et continues, puis-je les mélanger? Si j'ai un [0-1] catégorique et un [0-100] continu, dois-je normaliser?
Je travaille actuellement avec Python.
Merci beaucoup pour votre aide!