Pour les questions sur le sujet impliquant le concept mathématique d'un dérivé, ie . Pour des questions purement mathématiques sur le dérivé, il est préférable de poser sur math SE https://math.stackexchange.com/
réréXF( x )
J'essaie de comprendre comment fonctionne la rétropropagation pour une couche de sortie softmax / entropie croisée. La fonction d'erreur d'entropie croisée est E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j avec et comme cible et sortie au neurone , respectivement. La somme est sur chaque neurone dans la couche de sortie. lui-même est le …
Je fais le cours de Machine Learning Stanford sur Coursera. Dans le chapitre sur la régression logistique, la fonction de coût est la suivante: Ensuite, il est dérivé ici: J'ai essayé d'obtenir le dérivé de la fonction de coût mais j'ai obtenu quelque chose de complètement différent. Comment le dérivé …
Je ne sais pas si cette question appartient ici, mais elle est étroitement liée aux méthodes de gradient en optimisation, qui semble être sur le sujet ici. Quoi qu'il en soit, n'hésitez pas à migrer si vous pensez qu'une autre communauté a une meilleure expertise dans le sujet. En bref, …
Dans la reconnaissance des formes de livre et l'apprentissage automatique (formule 1.27), il donne py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | où , est le pdf qui correspond à par rapport au changement de la variable.px=g(y)x=g(y)x=g(y)p y ( y )px(x)px(x)p_x(x)py(y)py(y)p_y(y) Les livres disent que c'est parce …
J'ai un ensemble de données qui contient, disons, des mesures de position, de vitesse et d'accélération. Tous viennent du même "run". Je pourrais construire un système linéaire et adapter un polynôme à toutes ces mesures. Mais puis-je faire de même avec les splines? Qu'est-ce qu'une façon «R» de procéder? Voici …
Je crois que la dérivée d'un processus gaussien (GP) est un autre GP, et je voudrais donc savoir s'il existe des équations de forme fermée pour les équations de prédiction de la dérivée d'un GP? En particulier, j'utilise le noyau de covariance exponentielle au carré (également appelé gaussien) et je …
Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247). L'approximation quadratique de la fonction de coût jjj est donnée par: J^( θ ) = J( w∗) + 12( w - w∗)TH( w - w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) …
J'ai vu à certains moments l'utilisation de la dérivée Radon-Nikodym d'une mesure de probabilité par rapport à une autre, notamment dans la divergence Kullback-Leibler, où elle est la dérivée de la mesure de probabilité d'un modèle pour un paramètre arbitraire par rapport au paramètre réel :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Où ce …
Je comprends que les réseaux de neurones (NN) peuvent être considérés comme des approximateurs universels des deux fonctions et de leurs dérivés, sous certaines hypothèses (à la fois sur le réseau et sur la fonction à approximer). En fait, j'ai fait un certain nombre de tests sur des fonctions simples …
Dans le cours d'apprentissage automatique d'Andrew Ng, il utilise cette formule: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T et il fait une preuve rapide qui est montrée ci-dessous: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ …
J'ai essayé de créer un programme pour former des réseaux neuronaux sur mon ordinateur. Pour le réseau en question, j'ai décidé d'utiliser la fonction Cross Entropy Error: E= -∑jtjlnojE=−∑jtjlnojE = -\sum_jt_j\ln o_j Où est la sortie cible pour le neurone , et est la sortie de ce neurone, essayant de …
Un grand nombre de références (y compris wikipedia et http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf et http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) définissent la dérivée d'un fonction par un vecteur comme dérivées partielles de la fonction disposée en ligne (donc une dérivée d'une fonction à valeur scalaire est un vecteur de ligne). Dans cette convention, le gradient et la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.