Le seuil de décision crée un compromis entre le nombre de positifs que vous prédisez et le nombre de négatifs que vous prédisez - car, tautologiquement, l'augmentation du seuil de décision diminuera le nombre de positifs que vous prédirez et augmentera le nombre de négatifs qui vous prédisez.
Le seuil de décision n'est pas un hyper-paramètre au sens de l'ajustement du modèle car il ne modifie pas la flexibilité du modèle.
La façon dont vous pensez du mot «régler» dans le contexte du seuil de décision est différente de la façon dont les hyper-paramètres sont réglés. La modification de C et d'autres hyper-paramètres du modèle modifie le modèle(par exemple, les coefficients de régression logistique seront différents), tout en ajustant le seuil ne peut que faire deux choses: compromis TP pour FN, et FP pour TN. Cependant, le modèle reste le même, car cela ne change pas les coefficients. (Il en va de même pour les modèles qui n'ont pas de coefficients, tels que les forêts aléatoires: la modification du seuil ne change rien aux arbres.) Donc, dans un sens étroit, vous avez raison de trouver le meilleur compromis entre les erreurs est un "réglage", mais vous avez tort de penser que la modification du seuil est liée à d'autres hyper-paramètres du modèle d'une manière optimisée par GridSearchCV
.
Autrement dit, la modification du seuil de décision reflète un choix de votre part quant au nombre de faux positifs et de faux négatifs que vous souhaitez avoir. Considérez l'hypothèse selon laquelle vous définissez le seuil de décision sur une valeur totalement invraisemblable comme -1. Toutes les probabilités sont non négatives, donc avec ce seuil, vous prédirez "positif" pour chaque observation. D'un certain point de vue, c'est très bien, car votre taux de faux négatifs est de 0,0. Cependant, votre taux de faux positifs est également à l'extrême de 1,0, donc dans ce sens, votre choix de seuil à -1 est terrible.
L'idéal, bien sûr, est d'avoir un TPR de 1,0 et un FPR de 0,0 et un FNR de 0,0. Mais cela est généralement impossible dans les applications du monde réel, donc la question devient alors "combien de FPR suis-je prêt à accepter pour combien de TPR?" Et c'est la motivation des courbes roc .