Questions marquées «gradient-descent»

La descente en gradient est un algorithme d'optimisation itérative de premier ordre. Pour trouver un minimum local d'une fonction par descente de gradient, on fait des pas proportionnels au négatif du gradient (ou du gradient approximatif) de la fonction au point courant. Pour la descente de gradient stochastique, il existe également la balise [sgd].




1
Comment la descente de gradient stochastique pourrait-elle gagner du temps par rapport à la descente de gradient standard?
La descente de gradient standard calculerait le gradient pour l'ensemble des données d'apprentissage. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Pour un nombre prédéfini d'époques, nous calculons d'abord le vecteur de gradient weights_grad de la fonction de perte pour l'ensemble de …

1
Clarification sur la mise en œuvre de la règle Perceptron vs descente de gradient vs mise en œuvre de descente de gradient stochastique
J'ai expérimenté un peu avec différentes implémentations de Perceptron et je veux m'assurer si je comprends bien les "itérations". La règle originale de Perceptron de Rosenblatt D'après ce que je comprends, dans l'algorithme de perceptron classique de Rosenblatt, les poids sont mis à jour simultanément après chaque exemple de formation …



1
Pourquoi n'utilisons-nous pas des taux d'apprentissage non constants pour un gradient décent pour d'autres choses que les réseaux de neurones?
La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les packages d'apprentissage en profondeur, mais elles semblent …

4
Comment peut-il être piégé dans une pointe de selle?
Je suis actuellement un peu perplexe sur la façon dont la descente en gradient en mini-lot peut être piégée dans un point de selle. La solution est peut-être trop insignifiante pour ne pas l’obtenir. Vous obtenez un nouvel échantillon à chaque époque, et il calcule une nouvelle erreur en fonction …


2
Descente de gradient vs fonction lm () dans R?
Je passe en revue les vidéos du cours gratuit d' apprentissage automatique en ligne d' Andrew Ng à Stanford. Il décrit Gradient Descent comme un algorithme pour résoudre la régression linéaire et écrire des fonctions dans Octave pour l'exécuter. Vraisemblablement, je pourrais réécrire ces fonctions dans R, mais ma question …

5
Pourquoi la descente de gradient est-elle inefficace pour un grand ensemble de données?
Disons que notre ensemble de données contient 1 million d'exemples, c'est-à-dire , et nous souhaitons utiliser la descente de gradient pour effectuer une régression logistique ou linéaire sur ces ensembles de données.X1, … , Xdix6x1,…,x106x_1, \ldots, x_{10^6} Qu'est-ce que la méthode de descente de gradient rend inefficace? Rappelons que le …


1
Choix d'une taille de mini-lot appropriée pour la descente de gradient stochastique (SGD)
Existe-t-il une littérature qui examine le choix de la taille du mini-lot lors de la descente de gradient stochastique? D'après mon expérience, cela semble être un choix empirique, généralement trouvé via la validation croisée ou en utilisant différentes règles empiriques. Est-ce une bonne idée d'augmenter lentement la taille du mini-lot …

2
La descente en gradient ne trouve pas de solution aux moindres carrés ordinaires sur cet ensemble de données?
J'ai étudié la régression linéaire et je l'ai essayée sur l'ensemble ci-dessous {(x, y)}, où x spécifiait la superficie de la maison en pieds carrés et y spécifiait le prix en dollars. Ceci est le premier exemple dans Andrew Ng Notes . 2104,400 1600,330 2400,369 1416,232 3000,540 J'ai développé un …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.