Statistiques et Big Data neural-networks

3

Couche Softmax dans un réseau de neurones

J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similaire à la régression logistique. Cependant, cela est …

43 neural-networks

2

Qu'est-ce que maxout dans un réseau de neurones?

Quelqu'un peut-il expliquer ce que font les unités maxout d'un réseau de neurones? Comment fonctionnent-ils et en quoi diffèrent-ils des unités conventionnelles? J'ai essayé de lire le document "Maxout Network" de Goodfellow et al. (du groupe du professeur Yoshua Bengio), mais je ne comprends pas très bien.

42 machine-learning neural-networks

1

Réseaux de neurones: impulsion de changement de poids et perte de poids

Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …

42 neural-networks optimization regularization gradient-descent

4

Pourquoi la fonction sigmoïde au lieu de rien d'autre?

Pourquoi la fonction sigmoïde standard de facto, , est-elle si populaire dans les réseaux de neurones (non profonds) et la régression logistique?11 + e- x11+e−x\frac{1}{1+e^{-x}} Pourquoi n'utilisons-nous pas beaucoup d'autres fonctions pouvant être dérivées, avec un temps de calcul plus rapide ou une décroissance plus lente (de sorte qu'un gradient …

40 logistic neural-networks least-squares

3

Quelles sont les différences entre les modèles de Markov cachés et les réseaux de neurones?

Je ne fais que me mouiller dans les statistiques alors je suis désolé si cette question n’a pas de sens. J'ai utilisé des modèles de Markov pour prédire les états cachés (casinos injustes, lancers de dés, etc.) et des réseaux de neurones pour étudier les clics d'utilisateurs sur un moteur …

40 data-mining algorithms neural-networks markov-process

4

Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?

J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure que, par exemple, la fonction …

40 machine-learning neural-networks deep-learning gradient-descent

7

Normalisation des données et normalisation dans les réseaux de neurones

J'essaie de prédire le résultat d'un système complexe en utilisant des réseaux de neurones (ANN). Les résultats (dépendants) vont de 0 à 10 000. Les différentes variables d'entrée ont des plages différentes. Toutes les variables ont des distributions à peu près normales. Je considère différentes options pour mettre à l'échelle …

40 machine-learning neural-networks multidimensional-scaling

2

ImageNet: quel est le taux d’erreur top-1 et top-5?

Dans les documents de classification d'ImageNet, les taux d'erreur parmi les premiers et les cinq premiers sont des unités importantes pour mesurer le succès de certaines solutions, mais quels sont ces taux d'erreur? Dans la classification ImageNet avec les réseaux de neurones à convolution profonde de Krizhevsky et al. chaque …

38 classification neural-networks error measurement-error image-processing

5

Comment visualiser / comprendre ce que fait un réseau de neurones?

Les réseaux de neurones sont souvent traités comme des "boîtes noires" en raison de leur structure complexe. Ce n'est pas idéal, car il est souvent bénéfique de comprendre intuitivement le fonctionnement d'un modèle en interne. Quelles sont les méthodes de visualisation du fonctionnement d'un réseau de neurones formés? Sinon, comment …

37 data-visualization neural-networks

7

Pourquoi la régularisation ne résout-elle pas le besoin en données des réseaux neuronaux profonds?

Un problème que j'ai souvent vu dans le contexte des réseaux de neurones en général, et des réseaux de neurones profonds en particulier, est qu'ils sont "gourmands en données". avec lequel former le réseau. D'après ce que je comprends, cela est dû au fait que les NNets, notamment les Deep …

37 neural-networks deep-learning regularization

4

Différence entre «noyau» et «filtre» dans CNN

Quelle est la différence entre les termes "noyau" et "filtre" dans le contexte des réseaux de neurones à convolution?

37 neural-networks terminology deep-learning conv-neural-network

4

Que dois-je faire lorsque mon réseau de neurones ne se généralise pas bien?

J'entraîne un réseau de neurones et la perte d'apprentissage diminue, mais la perte de validation ne diminue pas, ou elle diminue beaucoup moins que ce à quoi je m'attendais, selon des références ou des expériences avec des architectures et des données très similaires. Comment puis-je réparer cela? Comme question Que …

37 neural-networks deep-learning

3

Apprentissage automatique: devrais-je utiliser une perte d'entropie croisée ou d'entropie croisée binaire pour les prédictions binaires?

Tout d'abord, j'ai réalisé que si je devais effectuer des prédictions binaires, je devais créer au moins deux classes en effectuant un encodage à chaud. Est-ce correct? Cependant, l'entropie croisée binaire est-elle réservée aux prédictions avec une seule classe? Si je devais utiliser une perte catégorique d'entropie croisée que l'on …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

La fonction de coût du réseau neuronal est non convexe?

La fonction de coût du réseau neuronal est J(W,b)J(W,b)J(W,b) , et il est prétendu être non convexe . Je ne comprends pas très bien pourquoi c'est ainsi, car je vois que cela ressemble beaucoup à la fonction de coût de la régression logistique, n'est-ce pas? Si elle est non convexe, …

36 neural-networks loss-functions

4

Comment LSTM empêche-t-il le problème du gradient de disparition?

Le LSTM a été inventé spécifiquement pour éviter le problème du gradient disparaissant. Il est supposé faire cela avec le carrousel à erreur constante (CEC), qui sur le diagramme ci-dessous (de Greff et al. ) Correspond à la boucle autour de la cellule . (source: deeplearning4j.org ) Et je comprends …

35 neural-networks lstm

Questions marquées «neural-networks»