Je cherche à former un classificateur qui établira une distinction entre les objets Type A
et ceux Type B
dont le nombre d’apprentissage est relativement important, soit environ 10 000 objets, dont la moitié environ Type A
et la moitié Type B
. Le jeu de données comprend 100 entités continues détaillant les propriétés physiques des cellules (taille, rayon moyen, etc.). La visualisation des données dans des diagrammes de dispersion par paires et des diagrammes de densité nous indique qu'il existe un chevauchement important dans la distribution des cellules cancéreuses et normales dans de nombreuses caractéristiques.
J'explore actuellement les forêts aléatoires en tant que méthode de classification pour cet ensemble de données et j'ai obtenu de bons résultats. En utilisant R, les forêts aléatoires permettent de classer correctement environ 90% des objets.
Une des choses que nous voulons essayer de faire est de créer une sorte de "score de certitude" qui permettra de quantifier notre confiance en la classification des objets. Nous savons que notre classificateur ne sera jamais précis à 100%, et même si les prévisions sont très précises, nous voudrons des techniciens qualifiés pour identifier les objets véritablement Type A
et réellement Type B
. Ainsi, au lieu de fournir des prédictions sans compromis d' Type A
ou Type B
, nous voulons présenter un score pour chaque objet qui décrira comment A
ou B
un objet est. Par exemple, si nous concevons un score compris entre 0 et 10, un score de 0 peut indiquer qu'un objet est très similaire aux Type A
objets, tandis qu'un score de 10 indique qu'un objet est très similaire Type B
.
Je pensais que je pourrais utiliser les votes au sein des forêts aléatoires pour élaborer un tel score. Étant donné que la classification dans les forêts aléatoires est effectuée à la majorité des voix dans la forêt d’arbres générés, je suppose que les objets votés par 100% des arbres Type A
diffèrent des objets votés par, par exemple, 51% des arbres. être Type A
.
Actuellement, j'ai essayé de définir un seuil arbitraire pour la proportion de votes qu'un objet doit recevoir pour être classé comme Type A
ou Type B
, et si le seuil n'est pas dépassé, il sera classé comme Uncertain
. Par exemple, si je force la condition que 80% ou plus des arbres doivent être d'accord sur une décision pour qu'une classification soit validée, je trouve que 99% des prédictions de la classe sont correctes, mais qu'environ 40% des objets sont classés comme Uncertain
.
Serait-il alors logique de tirer parti des informations de vote pour évaluer la certitude des prévisions? Ou suis-je dans la mauvaise direction avec mes pensées?