Un domaine de machine learning dédié à l'apprentissage des représentations hiérarchiques des données, principalement réalisé avec des réseaux de neurones profonds.
Je lisais le papier de normalisation par lots (BN) (1) et je ne comprenais pas la nécessité d'utiliser des moyennes mobiles pour suivre la précision du modèle et même si j'acceptais que c'était la bonne chose à faire, je ne comprends pas ce qu'ils font exactement. À ma connaissance (ce …
Dans l'implémentation de ResNet par Tensorflow , je trouve qu'ils utilisent l'initialiseur de mise à l'échelle de la variance, je trouve également que l'initialiseur xavier est populaire. Je n'ai pas trop d'expérience à ce sujet, ce qui est mieux en pratique?
Avec toutes les discussions et le battage médiatique sur l'apprentissage profond ces jours-ci, j'ai lu des trucs élémentaires à ce sujet. Je viens de découvrir que ce n'est qu'une autre méthode d'apprentissage automatique pour apprendre des modèles à partir de données. Mais ma question est: d'où vient et pourquoi cette …
J'ai un modèle de réseau neuronal profond et je dois le former sur mon ensemble de données qui comprend environ 100 000 exemples, mes données de validation contiennent environ 1 000 exemples. Parce qu'il faut du temps pour former chaque exemple (environ 0,5 s pour chaque exemple) et afin d'éviter …
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …
Je suis curieux de savoir à quel point le nœud de biais est important pour l'efficacité des réseaux neuronaux modernes. Je peux facilement comprendre que cela peut être important dans un réseau peu profond avec seulement quelques variables d'entrée. Cependant, les réseaux neuronaux modernes comme dans l'apprentissage profond ont souvent …
Je comprends les couches convolutionnelles et de mise en commun, mais je ne vois pas la raison d'une couche entièrement connectée dans les CNN. Pourquoi la couche précédente n'est-elle pas directement connectée à la couche de sortie?
Je comprends la structure de base de l'autoencodeur variationnel et de l'autoencodeur normal (déterministe) et les mathématiques qui les sous-tendent, mais quand et pourquoi préférerais-je un type d'autoencodeur à l'autre? Tout ce que je peux penser, c'est que la distribution préalable des variables latentes de l'autoencodeur variationnel nous permet d'échantillonner …
Y a-t-il une différence entre «transfert d'apprentissage» et «adaptation de domaine»? Je ne connais pas le contexte, mais je crois comprendre que nous avons un ensemble de données 1 et que nous nous y entraînons, après quoi nous avons un autre ensemble de données 2 pour lequel nous voulons adapter …
Les réseaux de neurones convolutifs les plus courants contiennent des couches de mise en commun pour réduire les dimensions des caractéristiques de sortie. Pourquoi ne pourrais-je pas réaliser la même chose en augmentant simplement la foulée de la couche convolutionnelle? Qu'est-ce qui rend la couche de mise en commun nécessaire?
Mes professeurs de physique au lycée, ainsi que le noble lauréat Feynman, présentaient toujours ce qu'ils appelaient des modèles de jouets pour illustrer les concepts et méthodes de base en physique, tels que l'oscillateur harmonique, le pendule, la toupie et la boîte noire. Quels modèles de jouets sont utilisés pour …
Je recherche des articles ou des textes qui comparent et discutent (empiriquement ou théoriquement): Les algorithmes de boosting et d' arbres de décision tels que Random Forests ou AdaBoost et GentleBoost ont été appliqués aux arbres de décision. avec Méthodes d'apprentissage en profondeur telles que les machines Boltzmann restreintes , …
De nombreux didacticiels en ligne parlent de la descente de gradient et presque tous utilisent une taille de pas fixe (taux d'apprentissage ). Pourquoi n'y a-t-il pas d'utilisation de la recherche de ligne (comme la recherche de ligne en arrière ou la recherche de ligne exacte)?αα\alpha
Nous définissons une époque comme ayant parcouru l'intégralité de tous les échantillons d'apprentissage disponibles, et la taille du mini-lot comme le nombre d'échantillons sur lesquels nous faisons la moyenne pour trouver les mises à jour des poids / biais nécessaires pour descendre le gradient. Ma question est de savoir si …
J'ai quelques questions qui me portent à confusion concernant le CNN. 1) Les caractéristiques extraites à l'aide de CNN sont invariantes d'échelle et de rotation? 2) Les noyaux que nous utilisons pour la convolution avec nos données sont déjà définis dans la littérature? quel genre de ces grains sont? est-ce …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.