L'erreur quadratique moyenne peut-elle être utilisée pour la classification?


13

Je connais la formule de l'erreur quadratique moyenne et comment la calculer. Lorsque nous parlons d'une régression, nous pouvons calculer l'erreur quadratique moyenne. Mais peut-on parler d'un MSE pour un problème de classification et comment le calculer?

Réponses:


12

De nombreux classificateurs peuvent prédire des scores continus. Souvent, les scores continus sont des résultats intermédiaires qui sont uniquement convertis en étiquettes de classe (généralement par seuil) comme dernière étape de la classification. Dans d'autres cas, par exemple, des probabilités postérieures pour l'appartenance à une classe peuvent être calculées (par exemple, une analyse discriminante, une régression logistique). Vous pouvez calculer le MSE en utilisant ces scores continus plutôt que les étiquettes de classe. L'avantage de cela est que vous évitez la perte d'informations due à la dichotomisation.
Lorsque le score continu est une probabilité, la métrique MSE est appelée score de Brier.

Cependant, il existe également des problèmes de classification qui sont plutôt des problèmes de régression déguisés. Dans mon domaine, cela pourrait par exemple être de classer les cas selon que la concentration d'une substance dépasse ou non une limite légale (qui est un problème binaire / discriminatoire à deux classes). Ici, MSE est un choix naturel en raison de la nature de régression sous-jacente de la tâche.

Dans cet article, nous l'expliquons dans le cadre d'un cadre plus général: C. Beleites, R. Salzer et V. Sergo:
Validation of Soft Classification Models using Partial Class Memberships: An Extended Concept of Sensitivity & Co. appliqué to Grading of Astrocytoma Tissues
Chemom. Intell. Laboratoire. Syst., 122 (2013), 12-22.

Comment le calculer: si vous travaillez en R, une implémentation est dans le package "softclassval", http: /softclassval.r-forge.r-project.org.


@ seanv507: merci beaucoup!
cbeleites mécontents de SX le

1

Je ne vois pas vraiment comment ... une classification réussie est une variable binaire (correcte ou non), il est donc difficile de voir ce que vous mettriez au carré.

Généralement, les classifications sont mesurées sur des indicateurs tels que le pourcentage correct, lorsqu'une classification qui a été estimée à partir d'un ensemble de formation, est appliquée à un ensemble de tests qui a été mis de côté plus tôt.

L'erreur quadratique moyenne peut certainement être (et est) calculée pour les prévisions ou les valeurs prédites des variables continues, mais je ne pense pas pour les classifications.


0

Pour les estimations de probabilité vous voudriez calculer non pas MSE mais plutôt la probabilité:π^

L=iπ^iyi(1π^i)1yi

Cette probabilité est pour une réponse binaire, qui est supposée avoir une distribution de Bernoulli.

Si vous prenez le log de puis niez, vous obtenez la perte logistique, qui est en quelque sorte l'analogue de MSE lorsque vous avez une réponse binaire. En particulier, MSE est la probabilité logarithmique négative d'une réponse continue supposée avoir une distribution normale.L


0

Techniquement, vous pouvez, mais la fonction MSE n'est pas convexe pour la classification binaire. Ainsi, si un modèle de classification binaire est entraîné avec la fonction de coût MSE, il n'est pas garanti de minimiser la fonction de coût . De plus, l'utilisation de MSE comme fonction de coût suppose la distribution gaussienne, ce qui n'est pas le cas pour la classification binaire.


1
Pourquoi MSE supposerait-il une distribution gaussienne? (Par opposition à, disons, la régression des moindres carrés utilise MSE comme perte, et nous pouvons montrer qu'elle est optimale pour les problèmes de régression avec des résidus normalement distribués)
cbeleites mécontents de SX le

Il n'est pas optimal pour la classification binaire mais optimal pour la régression. La question était pour le binaire.
Mostafa Nakhaei

La question ne dit pas classification binaire . Il ne dit même pas une classification discriminatoire. Et cela ne pose pas de question sur l'optimalité (pour laquelle vous devez être encore plus précis sur la situation même que de dire binaire ou discriminant avec 2 classes), juste si MSE peut être utilisé. De plus, le score de Brier est une règle de notation strictement appropriée pour les prévisions, donc une explication plus détaillée de la non-optimalité serait certainement utile (et peut-être très éclairante quant au moment où cette non-optimalité s'applique).
cbeleites mécontents de SX le
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.