J'essaie de développer un modèle prédictif utilisant des données cliniques de grande dimension, y compris des valeurs de laboratoire. L'espace de données est rare avec 5k échantillons et 200 variables. L'idée est de classer les variables à l'aide d'une méthode de sélection des fonctionnalités (IG, RF, etc.) et d'utiliser des fonctionnalités de premier ordre pour développer un modèle prédictif.
Bien que la sélection des fonctionnalités se déroule bien avec une approche Naïve Bayes, je rencontre maintenant un problème dans la mise en œuvre d'un modèle prédictif en raison de données manquantes (NA) dans mon espace variable. Existe-t-il un algorithme d'apprentissage automatique capable de gérer avec soin les échantillons contenant des données manquantes?