Questions marquées «loss-functions»

Une fonction utilisée pour quantifier la différence entre les données observées et les valeurs prédites selon un modèle. La minimisation des fonctions de perte est un moyen d'estimer les paramètres du modèle.

2
Pourquoi existe-t-il deux formules / notations de pertes logistiques différentes?
J'ai vu deux types de formulations de pertes logistiques. On peut facilement montrer qu'ils sont identiques, la seule différence est la définition de l'étiquette yyy . Formulation / notation 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) où p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , où la fonction logistique mappe un nombre réelβTxβTx\beta^T …

2
Quelle est la fonction de perte du SVM à marge dure?
Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est 12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) Certains auteurs appellent le régularisateur de termes ∥w∥2‖w‖2\|w\|^2 et la fonction de perte de terme …




6
Quelle est l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres?
L'idée «fondamentale» des statistiques pour estimer les paramètres est le maximum de vraisemblance . Je me demande quelle est l'idée correspondante dans l'apprentissage automatique. Qn 1. Serait-il juste de dire que l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres est: «Fonctions de perte» [Remarque: J'ai l'impression que les algorithmes …

3
0-1 Explication de la fonction de perte
J'essaie de comprendre quel est le but de la fonction de perte et je ne comprends pas très bien. Donc, pour autant que je sache, la fonction de perte consiste à introduire une sorte de métrique avec laquelle nous pouvons mesurer le "coût" d'une décision incorrecte. Disons que j'ai un …

1
Choisir entre les fonctions de perte pour la classification binaire
Je travaille dans un domaine problématique où les gens rapportent souvent ROC-AUC ou AveP (précision moyenne). Cependant, j'ai récemment trouvé des documents qui optimisent la perte de journal à la place, tandis que d'autres encore signalent une perte de charnière . Bien que je comprenne comment ces mesures sont calculées, …

4
Dans quelles conditions les estimateurs ponctuels bayésiens et fréquentistes coïncident-ils?
Avec un a priori plat, les estimateurs ML (fréquentiste - maximum de vraisemblance) et MAP (bayésien - maximum a posteriori) coïncident. Plus généralement, cependant, je parle d'estimateurs ponctuels dérivés comme optimiseurs d'une fonction de perte. C'est à dire (Bayésien) x (x^(.)=argminE(L(X-x^(y))|y) (Bayésien) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; …

2
Que se passe-t-il ici, lorsque j'utilise la perte au carré dans le cadre de la régression logistique?
J'essaie d'utiliser la perte au carré pour effectuer une classification binaire sur un ensemble de données de jouets. J'utilise mtcarsun ensemble de données, utilise le mile par gallon et le poids pour prédire le type de transmission. Le graphique ci-dessous montre les deux types de données de type de transmission …


4
Aperçu complet des fonctions de perte?
J'essaie d'avoir une perspective globale sur certaines des idées essentielles de l'apprentissage automatique, et je me demandais s'il existe un traitement complet des différentes notions de perte (carré, logarithme, charnière, proxy, etc.). Je pensais à quelque chose dans le sens d'une présentation plus complète et formelle de l'excellent article de …



3
perte de charnière vs perte de logistique avantages et inconvénients / limitations
La perte de charnière peut être définie à l'aide de et la perte de journal peut être définie commemax ( 0 , 1 - yjewTXje)max(0,1-yjewTXje)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)journal ( 1 + exp( - yjewTXje) )Journal(1+exp⁡(-yjewTXje))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) J'ai les questions suivantes: Y a-t-il des inconvénients à la perte de charnière (par exemple, …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.