j'ai un ensemble de données strictement binaire. l'ensemble de valeurs de chaque variable appartient au domaine: vrai, faux.
la propriété "spéciale" de cet ensemble de données est qu'une écrasante majorité des valeurs sont "fausses".
j'ai déjà utilisé un algorithme d'apprentissage de réseau bayésien pour apprendre un réseau à partir des données. cependant, pour l'un de mes nœuds cibles (le plus important étant la mort), le résultat AUC n'est pas très bon; c'est un peu mieux que le hasard. même la valeur prédictive positive (VPP), qui m'a été suggérée sur CV, n'était pas en concurrence avec ce qui est rapporté dans la littérature avec d'autres approches. noter que l'ASC (analyse ROC) est le point de référence typique rapporté dans ce domaine de la recherche clinique, mais je suis également ouvert à des suggestions sur la façon de mieux référencer le modèle de classification s'il y a d'autres idées.
donc, je me demandais quels autres modèles de classification je peux essayer pour ce type de jeu de données avec cette propriété (principalement de fausses valeurs).
- prendrait en charge l'aide de la machine vectorielle? pour autant que je sache, SVM ne traite que des variables continues comme prédicteurs (bien qu'il ait été adapté à plusieurs classes). mais mes variables sont toutes binaires.
- une forêt aléatoire aiderait-elle?
- la régression logistique s'appliquerait-elle ici? pour autant que je sache, les prédicteurs de la régression logistique sont également continus. existe-t-il une version généralisée pour les variables binaires comme prédicteurs?
en dehors des performances de classification, je soupçonne que SVM et la forêt aléatoire pourraient très bien surpasser le réseau bayésien, mais le problème se déplace sur la façon d'expliquer les relations dans ces modèles (en particulier aux cliniciens).