La rétropropagation, une abréviation de «propagation vers l'arrière des erreurs», est une méthode courante de formation des réseaux de neurones artificiels utilisée en conjonction avec une méthode d'optimisation telle que la descente de gradient.
De nombreux ouvrages et tutoriels sur les réseaux de neurones consacrent beaucoup de temps à l'algorithme de rétropropagation, qui est essentiellement un outil permettant de calculer le gradient. Supposons que nous construisons un modèle avec ~ 10K paramètres / poids. Est-il possible d'exécuter l'optimisation à l'aide d'algorithmes d'optimisation sans gradient? …
Je comprends que la descente de gradient stochastique peut être utilisée pour optimiser un réseau de neurones en utilisant la rétropropagation en mettant à jour chaque itération avec un échantillon différent de l'ensemble de données d'apprentissage. Quelle doit être la taille du lot?
Plus précisément, je suppose que je m'interroge sur cette affirmation: Les futures versions majeures de TensorFlow permettront par défaut aux gradients de s’intégrer dans l’entrée des étiquettes sur backprop. Qui est montré quand j'utilise tf.nn.softmax_cross_entropy_with_logits. Dans le même message, il m’incite à regarder tf.nn.softmax_cross_entropy_with_logits_v2. J'ai parcouru la documentation, mais elle …
J'essaie de comprendre comment fonctionne la rétropropagation pour une couche de sortie softmax / entropie croisée. La fonction d'erreur d'entropie croisée est E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j avec et comme cible et sortie au neurone , respectivement. La somme est sur chaque neurone dans la couche de sortie. lui-même est le …
J'ai lu quelques articles sur les avantages et les inconvénients de chaque méthode, certains affirmant que l'AG n'apporte aucune amélioration dans la recherche de la solution optimale, tandis que d'autres montrent que celle-ci est plus efficace. Il semble que le GA soit généralement préféré dans la littérature (bien que la …
Dans le cours sur les réseaux neuronaux et l'apprentissage profond d' Andrew Ng sur Coursera, il dit que l'utilisation de tanhtanhtanh est presque toujours préférable à l'utilisation de sigmoidsigmoidsigmoid . La raison qu'il donne est que les sorties utilisant tanhtanhtanh centrées autour de 0 plutôt que de 0,5, ce qui …
J'ai lu ici ce qui suit: Les sorties sigmoïdes ne sont pas centrées sur zéro . Cela n'est pas souhaitable car les neurones des couches ultérieures de traitement dans un réseau de neurones (plus à ce sujet bientôt) recevraient des données qui ne sont pas centrées sur zéro. Cela a …
Je suis curieux de savoir comment les gradients sont propagés en retour à travers un réseau de neurones à l'aide de modules ResNet / sauter les connexions. J'ai vu quelques questions sur ResNet (par exemple, un réseau de neurones avec des connexions de couche de saut ), mais celui-ci pose …
Lors de la formation d'un réseau neuronal à l'aide de l'algorithme de rétropropagation, la méthode de descente en gradient est utilisée pour déterminer les mises à jour du poids. Ma question est la suivante: Plutôt que d'utiliser la méthode de descente en gradient pour localiser lentement le point minimum par …
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …
Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez tous les poids à la même valeur (disons 0,5), mais fonctionne bien lorsque des nombres aléatoires sont donnés? L'algorithme ne devrait-il pas calculer l'erreur et travailler à partir de là, malgré le fait que les poids soient initialement les mêmes?
J'ai eu une légère confusion sur le algorithme de rétropropagation utilisé dans le perceptron multicouche (MLP). L'erreur est ajustée par la fonction de coût. En rétropropagation, nous essayons d'ajuster le poids des couches cachées. L'erreur de sortie que je peux comprendre, c'est-à-dire e = d - y[sans les indices]. Les …
Lorsque j'ai implémenté un mini-gradient décent, j'ai simplement fait la moyenne des gradients de tous les exemples du lot de formation. Cependant, j'ai remarqué que maintenant le taux d'apprentissage optimal est beaucoup plus élevé que pour un gradient décent en ligne. Mon intuition est que c'est parce que le gradient …
Dans un réseau de neurones récurrent, vous propagez généralement la propagation en plusieurs étapes, "déroulez" le réseau, puis la propagation en arrière sur la séquence d'entrées. Pourquoi ne mettez-vous pas simplement à jour les poids après chaque étape individuelle de la séquence? (l'équivalent de l'utilisation d'une longueur de troncature de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.