Quelle est la différence entre une fonction de perte et une fonction de décision?

23

Je vois que les deux fonctions font partie des méthodes d'extraction de données telles que Gradient Dynamiser régresseurs. Je vois que ce sont aussi des objets séparés.

Quelle est la relation entre les deux en général?

— www.pieronigro.de
source

45

Une fonction de décision est une fonction qui prend un ensemble de données en entrée et donne une décision en sortie. La décision à prendre dépend du problème à résoudre. Les exemples comprennent:

Problèmes d'estimation: la "décision" est l'estimation.
Problèmes de test d'hypothèse: la décision est de rejeter ou de ne pas rejeter l'hypothèse nulle.
Problèmes de classification: la décision est de classer une nouvelle observation (ou observations) dans une catégorie.
Problèmes de sélection des modèles: la décision est de choisir l'un des modèles candidats.

$\mathbf{x}=(x_1,x_2,\ldots,x_{10})$ $d(\mathbf{x})$

$d(\mathbf{x})=\frac{1}{10}\sum_{i=1}^{10}x_i$
$d(\mathbf{x})=\mbox{median}(\mathbf{x})$
$d(\mathbf{x})=\sqrt[10]{x_1\cdots x_{10}}$
$d(\mathbf{x})=1$ $\mathbf{x}$

Comment alors déterminer laquelle de ces fonctions de décision utiliser? Une façon consiste à utiliser une fonction de perte , qui décrit la perte (ou le coût) associée à toutes les décisions possibles. Différentes fonctions de décision auront tendance à conduire à différents types d'erreurs. La fonction de perte nous indique de quel type d'erreurs nous devrions être plus préoccupés. La meilleure fonction de décision est la fonction qui produit la perte attendue la plus faible . Ce que l'on entend par perte attendue dépend du contexte (en particulier, qu'il s'agisse de statistiques fréquentistes ou bayésiennes ).

En résumé:

Les fonctions de décision sont utilisées pour prendre des décisions basées sur des données.
Les fonctions de perte sont utilisées pour déterminer la fonction de décision à utiliser.

— MånsT
source

Pour les fonctions de décision paramétriques (par exemple: régression logistique, décision de seuil), vous avez essentiellement une fonction possible pour chaque combinaison de paramètres, et la fonction de perte est utilisée pour trouver la meilleure. Exemple courant: si vous utilisez la descente de gradient pour explorer l'espace des paramètres, vous dérivez la perte par rapport aux paramètres et descendez à un minimum (local) de la perte.

— pixelou

7

La fonction de perte est ce qui est minimisé pour obtenir un modèle qui est optimal dans un certain sens. Le modèle lui-même a une fonction de décision qui est utilisée pour prédire.

Par exemple, dans les classificateurs SVM:

$\mathcal{L}(\mathbf{w}, \xi) =\frac{1}{2}\|\mathbf{w}\|^2 + C\sum_i \xi_i$
$f(\mathbf{x}) = \mathbf{w}^T\mathbf{x} + b$

— Marc Claesen
source

N'est-ce pas la norme égale à la distance, ou dois-je mélanger quelque chose ici ... Donc, la fonction de décision fait toujours partie de la fonction de perte que j'utilise pour "comparer" aux valeurs réelles auxquelles j'essaie de fixer un modèle? Et l'objectif est de minimiser cette "différence"?

— www.pieronigro.de

@Hiatus la norme de l'hyperplan de séparation (qui est optimisée lors de la formation d'un SVM) n'est pas utilisée dans la fonction de décision. L'hyperplan lui-même est utilisé. Minimiser la norme pendant la formation est fondamentalement une forme de régularisation.

— Marc Claesen

Il serait préférable de donner une réponse plus générique qui ne soit liée à aucun classificateur spécifique.

— smci