J'essaie de construire un système de reconnaissance des gestes pour classer les gestes ASL (American Sign Language) , donc mon entrée est censée être une séquence d'images provenant d'une caméra ou d'un fichier vidéo, puis elle détecte la séquence et la mappe à sa correspondance cours (dormir, aider, manger, courir, etc.)
Le problème est que j'ai déjà construit un système similaire mais pour les images statiques (aucun mouvement inclus), il était utile pour traduire des alphabets uniquement dans lesquels la construction d'un CNN était une tâche simple, car la main ne bouge pas tellement et la la structure de l'ensemble de données était également gérable car j'utilisais des keras et je prévoyais peut-être toujours de le faire (chaque dossier contenait un ensemble d'images pour un signe particulier et le nom du dossier est le nom de classe de ce signe ex: A, B, C , ..)
Ma question ici, comment puis-je organiser mon ensemble de données pour pouvoir le saisir dans un RNN en keras et quelles fonctions dois-je utiliser pour entraîner efficacement mon modèle et tous les paramètres nécessaires, certaines personnes ont suggéré d'utiliser la classe TimeDistributed mais je ne le fais pas avoir une idée claire sur la façon de l'utiliser en ma faveur et prendre en compte la forme d'entrée de chaque couche du réseau.
considérant également que mon ensemble de données serait composé d'images, j'aurai probablement besoin d'une couche convolutionnelle, comment serait-il possible de combiner la couche conv dans la couche LSTM (je veux dire en termes de code).
Par exemple, j'imagine que mon ensemble de données ressemble à ceci
Le dossier nommé 'Run' contient 3 dossiers 1, 2 et 3, chaque dossier correspond à son cadre dans la séquence
Donc Run_1 contiendra un ensemble d'images pour la première image, Run_2 pour la deuxième image et Run_3 pour la troisième, l'objectif de mon modèle est d'être formé avec cette séquence pour sortir le mot Run .