Une fonction utilisée pour quantifier la différence entre les données observées et les valeurs prédites selon un modèle. La minimisation des fonctions de perte est un moyen d'estimer les paramètres du modèle.
Je sais que k-means est généralement optimisé à l'aide de la maximisation des attentes . Cependant, nous pourrions optimiser sa fonction de perte de la même manière que nous optimisons les autres! J'ai trouvé des articles qui utilisent réellement la descente de gradient stochastique pour les moyennes k à grande …
Dans la section 3.2 de Bishop's Pattern Recognition and Machine Learning , il discute de la décomposition biais-variance, déclarant que pour une fonction de perte au carré, la perte attendue peut être décomposée en un terme de biais au carré (qui décrit la distance entre les prévisions moyennes et la …
Le classificateur Naive Bayes est le classificateur qui attribue les éléments à une classe fonction de la maximisation du postérieur pour l'appartenance à la classe, et suppose que les caractéristiques des éléments sont indépendantes.C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) La perte 0-1 est la perte qui attribue à tout …
J'essaie de former un réseau de neurones pour la classification, mais les étiquettes que j'ai sont plutôt bruyantes (environ 30% des étiquettes sont fausses). La perte d'entropie croisée fonctionne en effet, mais je me demandais s'il existe des alternatives plus efficaces dans ce cas? ou la perte d'entropie croisée est-elle …
Dans le livre Deep Learning d' Ian Goodfellow , il est écrit que Parfois, la fonction de perte dont nous nous soucions réellement (disons, erreur de classification) n'est pas celle qui peut être optimisée efficacement. Par exemple, la minimisation exacte de la perte 0-1 attendue est généralement insoluble (exponentielle dans …
J'ai commencé à en apprendre davantage sur les réseaux de neurones avec le didacticiel neuromnetworksanddeeplearning dot com. En particulier dans le 3ème chapitre, il y a une section sur la fonction d'entropie croisée, et définit la perte d'entropie croisée comme: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjlnajL+(1−yj)ln(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) …
Je voudrais poser une question liée à celle-ci . J'ai trouvé un exemple d'écriture d'une fonction de perte personnalisée pour xgboost ici : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, …
Je veux utiliser l'apprentissage en profondeur pour former une détection binaire visage / non-visage, quelle perte dois-je utiliser, je pense que c'est SigmoidCrossEntropyLoss ou Hinge-loss . Est-ce vrai, mais je me demande aussi si je devrais utiliser softmax mais avec seulement deux classes?
Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247). L'approximation quadratique de la fonction de coût jjj est donnée par: J^( θ ) = J( w∗) + 12( w - w∗)TH( w - w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) …
J'essaie de faire un détecteur d'objets qui se produisent très rarement (en images), en prévoyant d'utiliser un classificateur binaire CNN appliqué dans une fenêtre coulissante / redimensionnée. J'ai construit des ensembles d'entraînement et de test positifs / négatifs équilibrés 1: 1 (est-ce une bonne chose à faire dans un tel …
C'est la fonction de perte de déviance binomiale de scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return …
La solution au problème: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] est bien connu pour être la médiane de XXX , mais à quoi ressemble la fonction de perte pour les autres centiles? Ex: le 25e centile de X est la solution pour: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] Qu'est-ce que LLL dans …
J'ai un doute sur la formation exacte de la fonction de perte d'un réseau Deep Q-Learning. J'utilise un réseau feedforward à 2 couches avec une couche de sortie linéaire et des couches cachées relu. Supposons que j'ai 4 actions possibles. Ainsi, la sortie de mon réseau pour l'état actuelststs_t est …
J'ai rencontré ces diapositives (diapositives # 16 et # 17) dans l'un des cours en ligne. L'instructeur tentait d'expliquer comment l'estimation maximale postérieure (MAP) est en fait la solution L ( θ ) = I[ θ ≠ θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , où θ∗θ∗\theta^{*} est le véritable paramètre. Quelqu'un …
Je travaille sur le papier Cho 2014 qui a introduit l'architecture codeur-décodeur pour la modélisation seq2seq. Dans l'article, ils semblent utiliser la probabilité de l'entrée donnée en sortie (ou sa probabilité de log négatif) comme fonction de perte pour une entrée de longueur et une sortie de longueur :M y …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.