Une fonction utilisée pour quantifier la différence entre les données observées et les valeurs prédites selon un modèle. La minimisation des fonctions de perte est un moyen d'estimer les paramètres du modèle.
D'accord - mon message d'origine n'a pas réussi à obtenir une réponse; alors, permettez-moi de poser la question différemment. Je commencerai par expliquer ma compréhension de l'estimation d'un point de vue théorique de la décision. Je n'ai aucune formation formelle et cela ne m'étonnerait pas si ma pensée était défectueuse …
Dans plusieurs compétitions de kaggle, la notation était basée sur la "perte de log". Cela concerne l'erreur de classification. Voici une réponse technique mais je recherche une réponse intuitive. J'ai vraiment aimé les réponses à cette question sur la distance de Mahalanobis, mais PCA n'est pas logloss. Je peux utiliser …
J'ai un problème de classification où les pixels seront étiquetés avec des étiquettes souples (qui dénotent des probabilités) plutôt qu'avec des étiquettes rigides 0,1. Auparavant, avec un étiquetage dur de 0,1 pixel, la fonction de perte d'entropie croisée (sigmoidCross entropyLossLayer de Caffe) donnait des résultats décents. Est-il acceptable d'utiliser la …
Je forme un réseau neuronal convolutionnel simple pour la régression, où la tâche consiste à prédire l'emplacement (x, y) d'une boîte dans une image, par exemple: La sortie du réseau a deux nœuds, un pour x et un pour y. Le reste du réseau est un réseau neuronal convolutif standard. …
Considérons la perte quadratique , avec donné antérieurement où . Soit la probabilité. Trouvez l'estimateur de Bayes .L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi Considérons la perte quadratique pondérée où avec avant . Soit la probabilité. Trouvez l'estimateur de Bayes .Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 Comparer etδπδπ\delta^\piδπ1δ1π\delta^\pi_1 J'ai d'abord remarqué que , et j'ai supposé …
La perte L2, ainsi que la perte L0 et L1, sont trois fonctions de perte "par défaut" très courantes utilisées pour résumer une perte postérieure minimale par la perte attendue postérieure. Une des raisons à cela est peut-être qu'elles sont relativement faciles à calculer (au moins pour les distributions 1d), …
Supposons que vous vouliez estimer un modèle linéaire: ( observations de la réponse et prédicteurs) nnnp+1p+1p+1E(yi)=β0+∑j=1pβjxijE(yi)=β0+∑j=1pβjxij\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} Pour ce faire, vous pouvez utiliser la solution OLS, c'est-à-dire choisir les coefficients de sorte que la somme des erreurs carrées soit minimale: (β0,β1,⋯,βp)T=argminβ0,β1,⋯,βp∑i=1n(yi−β0−∑j=1pβjxij)2(β0,β1,⋯,βp)T=argminβ0,β1,⋯,βp∑i=1n(yi−β0−∑j=1pβjxij)2(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} …
Je regarde actuellement la forme primitive non contrainte du classificateur un contre tous ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) où NININ_I est le nombre d'instances, est le nombre de classes, est le nombre d'entités, est une matrice de données , est un vecteur d'étiquettes de classe, est une où …
TL; DR (trop long, n'a pas lu): Je travaille sur un problème de prédiction de séries chronologiques, que je formule comme un problème de régression utilisant le Deep Learning (keras). Je veux optimiser la corrélation de Pearson entre ma prédiction et les vrais labels. Je suis confus par le fait …
Description du problème Je commence la construction d'un réseau pour un problème qui, selon moi, pourrait avoir une fonction de perte bien plus perspicace qu'une simple régression MSE. Mon problème concerne la classification multi-catégories ( voir ma question sur SO pour ce que je veux dire par là), où il …
J'utilise la régression logistique pour prédire la probabilité qu'un événement se produise. En fin de compte, ces probabilités sont placées dans un environnement de production, où nous nous concentrons autant que possible sur nos prévisions de «oui». Il est donc utile pour nous d'avoir une idée de ce que les …
Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.