Questions marquées «neural-networks»

Les réseaux de neurones artificiels (RNA) sont une large classe de modèles de calcul librement basés sur des réseaux de neurones biologiques. Ils englobent les NN à action directe (y compris les NN "profonds"), les NN convolutifs, les NN récurrents, etc.

3
Couche Softmax dans un réseau de neurones
J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similaire à la régression logistique. Cependant, cela est …

2
Qu'est-ce que maxout dans un réseau de neurones?
Quelqu'un peut-il expliquer ce que font les unités maxout d'un réseau de neurones? Comment fonctionnent-ils et en quoi diffèrent-ils des unités conventionnelles? J'ai essayé de lire le document "Maxout Network" de Goodfellow et al. (du groupe du professeur Yoshua Bengio), mais je ne comprends pas très bien.

1
Réseaux de neurones: impulsion de changement de poids et perte de poids
Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …

4
Pourquoi la fonction sigmoïde au lieu de rien d'autre?
Pourquoi la fonction sigmoïde standard de facto, , est-elle si populaire dans les réseaux de neurones (non profonds) et la régression logistique?11 + e- x11+e−x\frac{1}{1+e^{-x}} Pourquoi n'utilisons-nous pas beaucoup d'autres fonctions pouvant être dérivées, avec un temps de calcul plus rapide ou une décroissance plus lente (de sorte qu'un gradient …


4
Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?
J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure que, par exemple, la fonction …







3
Apprentissage automatique: devrais-je utiliser une perte d'entropie croisée ou d'entropie croisée binaire pour les prédictions binaires?
Tout d'abord, j'ai réalisé que si je devais effectuer des prédictions binaires, je devais créer au moins deux classes en effectuant un encodage à chaud. Est-ce correct? Cependant, l'entropie croisée binaire est-elle réservée aux prédictions avec une seule classe? Si je devais utiliser une perte catégorique d'entropie croisée que l'on …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.