Les encodeurs automatiques peuvent-ils être utilisés pour l'apprentissage supervisé?


9

Les encodeurs automatiques peuvent-ils être utilisés pour l'apprentissage supervisé sans ajouter de couche de sortie ? Pouvons-nous simplement l'alimenter avec un vecteur d'entrée-sortie concaténé pour la formation et reconstruire la partie de sortie à partir de la partie d'entrée lors de l'inférence? La partie en sortie serait traitée comme des valeurs manquantes lors de l'inférence et une imputation serait appliquée.


Je ne comprends pas très bien. Si vous l'entraînez avec des vecteurs d'entrée-sortie, vous aurez également besoin de vecteurs de sortie tout en faisant l'inférence pour l'alimenter sur le réseau. Qu'allez-vous faire à ce sujet?
Didam I

Non, ils seraient traités comme des valeurs manquantes et imputés d'une manière ou d'une autre. L'autoencodeur tentera alors de le reconstruire (plusieurs itérations peuvent être nécessaires). La question porte précisément sur la faisabilité de cette idée. Je vais modifier pour clarifier.
rcpinto

Réponses:


2

Un de ces articles que je connais et que j'ai mis en œuvre est l' apprentissage semi-supervisé à l'aide de réseaux à contacts . Je cite ici leur description du modèle:

Notre approche suit Valpola (2015), qui a proposé un réseau Ladder où la tâche auxiliaire est de débruiter les représentations à tous les niveaux du modèle. La structure du modèle est un encodeur automatique avec des connexions de saut de l'encodeur au décodeur et la tâche d'apprentissage est similaire à celle des encodeurs automatiques de débruitage mais appliquée à chaque couche, pas seulement aux entrées. Les connexions de saut soulagent la pression pour représenter les détails dans les couches supérieures du modèle car, grâce aux connexions de saut, le décodeur peut récupérer tous les détails rejetés par l'encodeur.

Pour plus d'explications sur l'architecture, consultez Deconstructing the Ladder Network Architecture par Yoshua Bengio.


1

Je me souviens d'avoir lu des articles sur de tels systèmes, si je vous comprends bien, mais je ne me souviens pas des titres pour le moment.

L'idée était d'utiliser des RNN génératifs basés sur des caractères, de les former sur des séquences codées comme "datadatadatadata | answer", puis lors de l'alimentation dans "otherdatadata |" alors il continuerait à générer une sorte de réponse attendue.

Mais, si je me souviens bien, c'était juste une bonne illustration car si vous avez les données pour faire quelque chose de supervisé, alors vous obtiendrez de meilleurs résultats par des méthodes conventionnelles.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.