À utiliser pour les questions sur la rétropropagation, qui est couramment utilisée dans la formation des réseaux de neurones en conjonction avec une méthode d'optimisation telle que la descente de gradient.
C'est une petite question conceptuelle qui me hante depuis un moment: comment pouvons-nous propager en arrière à travers une couche de regroupement maximal dans un réseau de neurones? Je suis tombé sur des couches de max-pooling en parcourant ce tutoriel pour la bibliothèque nn de Torch 7. La bibliothèque résume …
J'utilise des réseaux de neurones depuis un certain temps maintenant. Cependant, une chose avec laquelle je me bats constamment est la sélection d'un optimiseur pour la formation du réseau (en utilisant backprop). Ce que je fais habituellement, c'est de commencer par un seul (par exemple SGD standard), puis d'essayer d'autres …
J'ai du mal à dériver la propagation avec ReLU, et j'ai fait du travail, mais je ne sais pas si je suis sur la bonne voie. Fonction de coût: où est la valeur réelle et est une valeur prédite. Supposons également que > 0 toujours.y y x12(y−y^)212(y-y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxXx 1 …
Vais-je suréquiper mon LSTM si je l'entraîne via l'approche à fenêtre coulissante? Pourquoi les gens ne semblent-ils pas l'utiliser pour les LSTM? Pour un exemple simplifié, supposons que nous devons prédire la séquence de caractères: A B C D E F G H I J K L M N O …
J'ai le CNN suivant: Je commence par une image d'entrée de taille 5x5 Ensuite, j'applique la convolution en utilisant un noyau 2x2 et stride = 1, ce qui produit une carte de caractéristiques de taille 4x4. Ensuite, j'applique un pool max 2x2 avec stride = 2, ce qui réduit la …
J'ai une petite sous-question à cette question . Je comprends que lors d'une rétropropagation à travers une couche de mise en commun maximale, le gradient est réacheminé de manière à ce que le neurone de la couche précédente qui a été sélectionné comme max reçoive tout le gradient. Ce dont …
J'essaie de comprendre combien de poids et de biais sont nécessaires pour CNN. Disons que j'ai une image (3, 32, 32) et que je souhaite appliquer un filtre (32, 5, 5). Pour chaque carte d'entités, j'ai des poids 5x5, donc je devrais avoir 3 paramètres (5x5) x 32. Maintenant, je …
Supposons que nous utilisons une taille de lot de 100 échantillons pour l'apprentissage. Donc, dans chaque lot, le poids de chaque neurone (et biais, etc.) est mis à jour en ajoutant le moins du taux d'apprentissage * la valeur d'erreur moyenne que nous avons trouvée en utilisant les 100 échantillons …
J'ai deux tenseur a:[batch_size, dim] b:[batch_size, dim]. Je veux faire un produit intérieur pour chaque paire du lot, en générant c:[batch_size, 1], où c[i,0]=a[i,:].T*b[i,:]. Comment?
Je peux voir deux raisons d'utiliser des dégradés synthétiques dans RNN: Pour accélérer l'entraînement, en corrigeant immédiatement chaque couche avec le gradient prévu Pour pouvoir apprendre des séquences plus longues Je vois des problèmes avec les deux. Veuillez noter que j'aime vraiment les dégradés synthétiques et je voudrais les implémenter. …
J'ai récemment fait mes devoirs où j'ai dû apprendre un modèle pour la classification à 10 chiffres du MNIST. Le HW avait un code d'échafaudage et j'étais censé travailler dans le contexte de ce code. Mes devoirs fonctionnent / réussissent les tests, mais maintenant j'essaie de tout faire à partir …
C'est un fait bien connu qu'un réseau à une couche ne peut pas prédire la fonction xor, car elle n'est pas séparable linéairement. J'ai tenté de créer un réseau à 2 couches, en utilisant la fonction sigmoïde logistique et backprop, pour prédire xor. Mon réseau a 2 neurones (et un …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.