Questions marquées «gradient-descent»

La descente en gradient est un algorithme d'optimisation itérative de premier ordre. Pour trouver un minimum local d'une fonction par descente de gradient, on fait des pas proportionnels au négatif du gradient (ou du gradient approximatif) de la fonction au point courant. Pour la descente de gradient stochastique, il existe également la balise [sgd].




6
Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?
Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction augmente / …


3
Descente de coordonnées vs descente de gradient
Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …



3
La descente de gradient est-elle possible pour les SVM noyés (si oui, pourquoi les gens utilisent-ils la programmation quadratique)?
Pourquoi les gens utilisent-ils des techniques de programmation quadratique (comme SMO) lorsqu'ils traitent avec des SVM noyés? Quel est le problème avec Gradient Descent? Est-il impossible de l'utiliser avec des noyaux ou est-ce simplement trop lent (et pourquoi?). Voici un peu plus de contexte: en essayant de mieux comprendre les …

3
De la règle du Perceptron à la descente en gradient: en quoi les Perceptrons avec une fonction d'activation sigmoïde sont-ils différents de la régression logistique?
Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suity^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} En quoi ce Perceptron "sigmoïde" diffère-t-il alors d'une régression logistique? Je dis qu'un perceptron sigmoïde …

2
Dans les réseaux neuronaux, pourquoi utiliser des méthodes de gradient plutôt que d'autres métaheuristiques?
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …

3
Quand les algorithmes génétiques sont-ils un bon choix pour l'optimisation?
Les algorithmes génétiques sont une forme de méthode d'optimisation. Souvent, la descente de gradient stochastique et ses dérivés sont le meilleur choix pour l'optimisation des fonctions, mais des algorithmes génétiques sont encore parfois utilisés. Par exemple, l'antenne du vaisseau spatial ST5 de la NASA a été créée avec un algorithme …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.