Questions marquées «sgd»

3
Descente de gradient par lots et descente de gradient stochastique
Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …


6
Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?
Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction augmente / …


1
Comment la descente de gradient stochastique pourrait-elle gagner du temps par rapport à la descente de gradient standard?
La descente de gradient standard calculerait le gradient pour l'ensemble des données d'apprentissage. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Pour un nombre prédéfini d'époques, nous calculons d'abord le vecteur de gradient weights_grad de la fonction de perte pour l'ensemble de …

4
Comment peut-il être piégé dans une pointe de selle?
Je suis actuellement un peu perplexe sur la façon dont la descente en gradient en mini-lot peut être piégée dans un point de selle. La solution est peut-être trop insignifiante pour ne pas l’obtenir. Vous obtenez un nouvel échantillon à chaque époque, et il calcule une nouvelle erreur en fonction …

1
RMSProp et Adam vs SGD
J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même configuration exacte avec RMSProp et Adam …

1
Quelle est la différence entre la VAE et la rétropropagation stochastique pour les modèles génératifs profonds?
Quelle est la différence entre l' encodage bayésien variationnel automatique et la rétropropagation stochastique pour les modèles génératifs profonds ? L'inférence dans les deux méthodes conduit-elle aux mêmes résultats? Je ne suis au courant d'aucune comparaison explicite entre les deux méthodes, malgré le fait que les deux groupes d'auteurs se …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.