Je cherchais la possibilité de classer le son (par exemple les sons d'animaux) à l'aide de spectrogrammes. L'idée est d'utiliser un réseau de neurones à convolution profonde pour reconnaître les segments dans le spectrogramme et produire une (ou plusieurs) étiquettes de classe. Ce n'est pas une idée nouvelle (voir par exemple la classification du son des baleines ou la reconnaissance du style musical ).
Le problème auquel je suis confronté est que j'ai des fichiers sonores de différentes longueurs et donc des spectrogrammes de différentes tailles. Jusqu'à présent, chaque approche que j'ai vue utilise un échantillon sonore de taille fixe, mais je ne peux pas le faire car mon fichier audio peut durer 10 secondes ou 2 minutes.
Avec, par exemple, un son d'oiseau au début et un son de grenouille à la fin (la sortie doit être "Bird, Frog"). Ma solution actuelle serait d'ajouter une composante temporelle au réseau neuronal (créant plus d'un réseau neuronal récurrent) mais je voudrais rester simple pour l'instant. Des idées, des liens, des tutoriels, ...?