Questions marquées «gradient-descent»

La descente en gradient est un algorithme d'optimisation itérative de premier ordre. Pour trouver un minimum local d'une fonction par descente de gradient, on fait des pas proportionnels au négatif du gradient (ou du gradient approximatif) de la fonction au point courant. Pour la descente de gradient stochastique, il existe également la balise [sgd].


3
Descente de gradient par lots et descente de gradient stochastique
Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …

6
Pourquoi utiliser la descente sur gradient pour la régression linéaire, lorsqu'une solution mathématique de forme fermée est disponible?
Je suis les cours d'apprentissage automatique en ligne et j'ai appris comment utiliser Gradient Descent pour calculer les valeurs optimales de l'hypothèse. h(x) = B0 + B1X pourquoi nous devons utiliser Gradient Descent si nous pouvons facilement trouver les valeurs avec la formule ci-dessous? Cela semble simple et facile aussi. …




6
Adam optimiseur avec décroissance exponentielle
Dans la plupart des codes Tensorflow, j'ai constaté qu'Adam Optimizer est utilisé avec un taux d'apprentissage constant 1e-4(0,0001). Le code a généralement l'aspect suivant: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by …


4
Quelle est la différence entre la descente de gradient basée sur la quantité de mouvement et la descente de gradient accélérée de Nesterov?
Ainsi, la descente de gradient basée sur la quantité de mouvement fonctionne comme suit: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g où est la mise à jour précédente du poids, et est le gradient actuel par rapport aux paramètres , est le taux d'apprentissage et est une constante.mmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + …



1
Réseaux de neurones: impulsion de changement de poids et perte de poids
Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …

4
Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?
J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure que, par exemple, la fonction …


2
Avons-nous besoin d'une descente de gradient pour trouver les coefficients d'un modèle de régression linéaire?
J'essayais d'apprendre l'apprentissage automatique en utilisant le matériel Coursera . Dans cette conférence, Andrew Ng utilise un algorithme de descente de gradient pour trouver les coefficients du modèle de régression linéaire qui minimiseront la fonction d'erreur (fonction de coût). Pour la régression linéaire, avons-nous besoin d'une descente de gradient? Il …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.