J'ai une bonne compréhension générale du rôle et du mécanisme des couches convolutives dans le Deep Learning pour le traitement d'image en cas d'implémentations 2D ou 3D - elles essaient "simplement" de capturer des motifs 2D dans les images (sur 3 canaux en cas de 3D).
Mais récemment, je suis tombé sur des couches convolutives 1D dans le contexte du traitement du langage naturel, ce qui est une sorte de surprise pour moi, car selon moi, la convolution 2D est surtout utilisée pour capturer des motifs 2D impossibles à révéler sous forme 1D (vectorielle) de pixels d'image. Quelle est la logique derrière la convolution 1D?