Je suis étonné de ne pouvoir trouver aucun article / conférence sur la façon d'intégrer des distributions de probabilité de classe antérieures dans des classificateurs comme la régression logistique ou la forêt aléatoire.
Ma question est donc:
Comment peut-on incorporer la distribution de probabilité de classe antérieure dans la régression logistique ou les forêts aléatoires?
L'incorporation de la distribution de probabilité de classe antérieure implique-t-elle que je devrais utiliser des machines bayésiennes?
Je suis confronté à une tâche de classification où je sais que la classe a est beaucoup plus probable que la classe b.
Une solution ad hoc serait d'inclure simplement plus d'échantillons pour la classe a dans l'ensemble de formation, mais y a-t-il des résultats théoriques à ce sujet?
Une chose à laquelle j'ai pensé était de changer le seuil de décision de 0,5 à une valeur en tenant compte de ce déséquilibre antérieur. Mais je ne suis même pas sûr que cela ait un sens théorique, car au moment où je suis prêt à prendre une décision, j'ai déjà examiné toutes les valeurs des caractéristiques, donc je ne devrais pas me soucier de la probabilité antérieure mais de la probabilité conditionnelle de classe.