Une fonction utilisée pour quantifier la différence entre les données observées et les valeurs prédites selon un modèle. La minimisation des fonctions de perte est un moyen d'estimer les paramètres du modèle.
J'ai vu deux types de formulations de pertes logistiques. On peut facilement montrer qu'ils sont identiques, la seule différence est la définition de l'étiquette yyy . Formulation / notation 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) où p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , où la fonction logistique mappe un nombre réelβTxβTx\beta^T …
Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est 12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) Certains auteurs appellent le régularisateur de termes ∥w∥2‖w‖2\|w\|^2 et la fonction de perte de terme …
Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme …
Est-il possible de contrôler le coût des erreurs de classification dans le package R randomForest ? Dans mon propre travail, les faux négatifs (par exemple, le fait de manquer par erreur qu'une personne peut avoir une maladie) sont beaucoup plus coûteux que les faux positifs. Le package rpart permet à …
Cette question a déjà des réponses ici : Comment un changement dans la fonction de coût peut-il être positif? (1 réponse) Que dois-je faire lorsque mon réseau de neurones n'apprend pas? (5 réponses) Fermé le mois dernier . Je forme un modèle (Recurrent Neural Network) pour classer 4 types de …
L'idée «fondamentale» des statistiques pour estimer les paramètres est le maximum de vraisemblance . Je me demande quelle est l'idée correspondante dans l'apprentissage automatique. Qn 1. Serait-il juste de dire que l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres est: «Fonctions de perte» [Remarque: J'ai l'impression que les algorithmes …
J'essaie de comprendre quel est le but de la fonction de perte et je ne comprends pas très bien. Donc, pour autant que je sache, la fonction de perte consiste à introduire une sorte de métrique avec laquelle nous pouvons mesurer le "coût" d'une décision incorrecte. Disons que j'ai un …
Je travaille dans un domaine problématique où les gens rapportent souvent ROC-AUC ou AveP (précision moyenne). Cependant, j'ai récemment trouvé des documents qui optimisent la perte de journal à la place, tandis que d'autres encore signalent une perte de charnière . Bien que je comprenne comment ces mesures sont calculées, …
Avec un a priori plat, les estimateurs ML (fréquentiste - maximum de vraisemblance) et MAP (bayésien - maximum a posteriori) coïncident. Plus généralement, cependant, je parle d'estimateurs ponctuels dérivés comme optimiseurs d'une fonction de perte. C'est à dire (Bayésien) x (x^(.)=argminE(L(X-x^(y))|y) (Bayésien) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; …
J'essaie d'utiliser la perte au carré pour effectuer une classification binaire sur un ensemble de données de jouets. J'utilise mtcarsun ensemble de données, utilise le mile par gallon et le poids pour prédire le type de transmission. Le graphique ci-dessous montre les deux types de données de type de transmission …
J'essaie de mieux comprendre la perte de journal et comment cela fonctionne, mais une chose que je n'arrive pas à trouver est de mettre le numéro de perte de journal dans une sorte de contexte. Si mon modèle a une perte de log de 0,5, est-ce bien? Qu'est-ce qui est …
J'essaie d'avoir une perspective globale sur certaines des idées essentielles de l'apprentissage automatique, et je me demandais s'il existe un traitement complet des différentes notions de perte (carré, logarithme, charnière, proxy, etc.). Je pensais à quelque chose dans le sens d'une présentation plus complète et formelle de l'excellent article de …
J'essaie de comprendre la fonction de perte de Yolo v2: λc o o r d∑i = 0S2∑j = 0B1o b jje j[ ( xje- x^je)2+ ( yje- y^je)2]+ λc o o r d∑i = 0S2∑j = 0B1o b jje j[ ( wje--√- w^je--√)2+ ( hje--√- h^je--√)2]+ ∑i = 0S2∑j = …
Tensorflow propose un exemple de didacticiel sur la classification de CIFAR-10 . Dans le didacticiel, la perte d'entropie croisée moyenne sur le lot est minimisée. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from …
La perte de charnière peut être définie à l'aide de et la perte de journal peut être définie commemax ( 0 , 1 - yjewTXje)max(0,1-yjewTXje)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)journal ( 1 + exp( - yjewTXje) )Journal(1+exp(-yjewTXje))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) J'ai les questions suivantes: Y a-t-il des inconvénients à la perte de charnière (par exemple, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.