Questions marquées «derivative»

Pour les questions sur le sujet impliquant le concept mathématique d'un dérivé, ie . Pour des questions purement mathématiques sur le dérivé, il est préférable de poser sur math SE https://math.stackexchange.com/ XF(X)

6
Propagation du dos avec Softmax / Entropie croisée
J'essaie de comprendre comment fonctionne la rétropropagation pour une couche de sortie softmax / entropie croisée. La fonction d'erreur d'entropie croisée est E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j avec et comme cible et sortie au neurone , respectivement. La somme est sur chaque neurone dans la couche de sortie. lui-même est le …



1
Dérivation du changement de variables d'une fonction de densité de probabilité?
Dans la reconnaissance des formes de livre et l'apprentissage automatique (formule 1.27), il donne py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | où , est le pdf qui correspond à par rapport au changement de la variable.px=g(y)x=g(y)x=g(y)p y ( y )px(x)px(x)p_x(x)py(y)py(y)p_y(y) Les livres disent que c'est parce …


2
Dérivée d'un processus gaussien
Je crois que la dérivée d'un processus gaussien (GP) est un autre GP, et je voudrais donc savoir s'il existe des équations de forme fermée pour les équations de prédiction de la dérivée d'un GP? En particulier, j'utilise le noyau de covariance exponentielle au carré (également appelé gaussien) et je …

1
Approximation de second ordre de la fonction de perte (livre d'apprentissage en profondeur, 7.33)
Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247). L'approximation quadratique de la fonction de coût jjj est donnée par: J^( θ ) = J( w∗) + 12( w - w∗)TH( w - w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) …

1
Interprétation de la dérivée de Radon-Nikodym entre les mesures de probabilité?
J'ai vu à certains moments l'utilisation de la dérivée Radon-Nikodym d'une mesure de probabilité par rapport à une autre, notamment dans la divergence Kullback-Leibler, où elle est la dérivée de la mesure de probabilité d'un modèle pour un paramètre arbitraire par rapport au paramètre réel :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Où ce …


1
Qu'est-ce qui justifie ce calcul de la dérivée d'une fonction matricielle?
Dans le cours d'apprentissage automatique d'Andrew Ng, il utilise cette formule: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T et il fait une preuve rapide qui est montrée ci-dessous: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ …


1
Dérivées de gradient et de vecteur: vecteur ligne ou colonne?
Un grand nombre de références (y compris wikipedia et http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf et http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) définissent la dérivée d'un fonction par un vecteur comme dérivées partielles de la fonction disposée en ligne (donc une dérivée d'une fonction à valeur scalaire est un vecteur de ligne). Dans cette convention, le gradient et la …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.