Quelqu'un a-t-il déjà vu des publications sur la formation préalable au réseau de neurones à convolution profonde? Je n'ai vu que de la pré-formation non supervisée dans les machines à codeur automatique ou à boltzman restreint.
Quelqu'un a-t-il déjà vu des publications sur la formation préalable au réseau de neurones à convolution profonde? Je n'ai vu que de la pré-formation non supervisée dans les machines à codeur automatique ou à boltzman restreint.
Réponses:
Je ne sais pas si cela répond exactement à votre question, mais d'après ce que je comprends, vous ne voyez pas les gens se pré-former ( je veux dire ceci dans un sens pré-entrainé sans surveillance ), c'est parce qu'il y a eu plusieurs innovations dans la formation purement supervisée qui ont rendu inutile la formation préalable non supervisée (pour le moment, qui sait quels problèmes et quelles questions l’avenir nous réserve?).
L’une des principales innovations a été de s’éloigner des unités d’activation sigmoïdales (sigmoïdes, tanh), qui peuvent saturer / avoir des régions de courbure presque plate et ainsi très peu de gradient est propagé en arrière. L’apprentissage est donc incroyablement lent, voire complètement interrompu. et à des fins. L'article de Glorot, Bordes et Bengio, intitulé Deep Sparse Rectifier Neural Networks, utilisait des unités linéaires rectifiées (ReLU) comme fonctions d'activation au lieu des unités sigmoïdes traditionnelles. Les ReLU ont la forme suivante: . Notez qu'ils ne sont pas liés et que, pour la partie positive, leur gradient est constant 1.
L'article de Glorot, Bordes et Bengio utilisait les ReLU pour les perceptrons multicouches et non pour les réseaux de Conv. Un article précédent Quelle est la meilleure architecture en plusieurs étapes pour la reconnaissance d’objets par Jarret et d’autres membres du groupe NYU de Yann LeCun a utilisé des non-linéarités de correction, mais pour les unités sigmoïdales, leur fonction d’activation était donc de la forme , etc. Les deux articles ont fait observer que l’utilisation de non-linéarités correctrices semblait combler l’écart entre les méthodes purement supervisées et les méthodes pré-entraînées non supervisées.
Une autre innovation est que nous avons trouvé de meilleures initialisations pour les réseaux profonds. En utilisant l’idée de normaliser la variance à travers les couches d’un réseau, de bonnes règles empiriques ont été établies au fil des ans. Parmi les premiers, les plus populaires sont Glorot et Bengio. Comprendre la difficulté de former des réseaux de type Feedforward Deep qui permettaient d’initialiser des réseaux profonds sous une hypothèse d’activation linéaire puis, plus tard, de creuser profondément dans des redresseurs.par un groupe de membres de l’équipe de Microsoft Research qui modifient l’initialisation du poids de Glorot et de Bengio pour tenir compte des non-linéarités à corriger. L'initialisation du poids est un gros problème pour les filets extrêmement profonds. Pour un réseau de convection à 30 couches, l’initialisation du poids MSR s’est avérée bien meilleure que celle du poids de Glorot. N'oubliez pas que le papier Glorot est sorti en 2010 et que le journal MSR est sorti en 2015.
Je ne suis pas sûr que le document ImageNet Classification avec Deep Convolutional Neural Networks de Alex Krizhevsky, Ilya Sutskever et Geoff Hinton ait été le premier à utiliser les ReLU pour les réseaux de conv, mais ce fut l'impact le plus important. Dans cet article, nous voyons que les ReLU pour réseaux de convictions accélèrent l’apprentissage, comme le montre l’un de leurs graphiques CIFAR-10, qui montre que les réseaux de convois ReLU peuvent atteindre des taux d’erreur de formation inférieurs plus rapidement que ceux qui ne le sont pas. Ces ReLU ne souffrent pas du problème de sigmoïde à gradient / saturation en voie de disparition et peuvent être utilisés pour entraîner des filets beaucoup plus profonds. L’une des autres innovations majeures a été l’utilisation de la formation Dropout, une technique d’injection de bruit stochastique ou de moyennage sur modèle (selon votre point de vue), qui nous permet de former des réseaux de neurones plus profonds et plus grands plus longtemps sans surajustement.
Et l’innovation de réseau a continué à un rythme effréné, presque toutes les méthodes utilisant ReLU (ou une modification telle que PReLU de Microsoft Research), Dropout et la formation purement supervisée (SGD + Momentum, éventuellement certaines techniques de taux d’apprentissage adaptatif telles que RMSProp ou ADAGrad ).
Ainsi, à l’heure actuelle, bon nombre des moustiquaires les plus performantes semblent être de nature purement supervisée. Cela ne veut pas dire que la pré-formation non supervisée ou l'utilisation de techniques non supervisées peuvent ne plus être importantes à l'avenir. Mais certains réseaux de navigation extrêmement profonds ont été formés, ont égalé ou même surpassé les performances humaines sur des jeux de données très riches, en utilisant simplement une formation supervisée. En fait, je pense que la dernière soumission de Microsoft Research au concours ImageNet 2015 contenait 150 couches. Ce n'est pas une faute de frappe. 150.
Si vous souhaitez utiliser la formation préalable non surveillée pour les réseaux de navigation, je pense que vous feriez mieux de trouver une tâche dans laquelle une formation "standard" supervisée des réseaux de communication ne donne pas de si bons résultats et d'essayer une formation préalable sans surveillance.
Contrairement à la modélisation en langage naturel, il semble difficile de trouver une tâche non supervisée qui aide une tâche supervisée correspondante en ce qui concerne les données d'image. Mais si vous regardez suffisamment sur Internet, vous verrez quelques-uns des pionniers de l'apprentissage en profondeur (Yoshua Bengio, Yann LeCun pour n'en nommer que quelques-uns) qui parlent de l'importance qu'ils considèrent comme un apprentissage non supervisé.
Comme on peut le comprendre d'après les réponses ci-dessus, la formation préalable a été «élaborée» lorsque plusieurs événements se sont produits. Cependant, je tiens à préciser ma compréhension de cette question:
Vous voyez que la pré-formation a changé de forme en pré-traitement et en initialisation des poids, mais est restée fonctionnelle et est devenue plus élégante.
En conclusion, l’apprentissage automatique est très à la mode. Personnellement, je parie comme Andrew Ng que l'apprentissage non supervisé et autodidacte sera dominant dans le futur, alors n'en faites pas une religion :)
Il y a quelques papiers mais pas autant que les autoencodeurs ou les RBM. Je pense que la raison est la chronologie de NN. Le RBM et l’auto-encodeur empilés sont introduits en 2006 et 2007 , respectivement. Après l’emploi de ReLU à 2009, l’apprentissage non supervisé est partiellement abandonné (quand il existe suffisamment de données pour apprendre en apprentissage supervisé direct). Bien que Convolution Net (ou LeNet) ait été inventé en 1989 , il n’a pu suivre une formation aussi profonde que 2012, ce qui est après la vulgarisation de l’apprentissage supervisé direct avec ReLU. Je suppose donc que les chercheurs l’ont principalement formée en utilisant l’apprentissage direct supervisé.