J'ai beaucoup de contenu vidéo de conférence dont j'aimerais avoir les sous-titres. YouTube génère automatiquement des sous-titres pour les vidéos sous certaines conditions (ces conditions sont encore un peu un mystère pour moi).
J'aimerais pouvoir utiliser cette technologie de reconnaissance vocale en dehors de YouTube. Je ne veux pas télécharger chaque vidéo juste pour obtenir la transcription (trop de temps), et je ne pense pas que YouTube le fera pour les vidéos qui durent plus de 30 minutes environ (la plupart d'entre elles le sont), de plus, je ne pensez pas qu'il le fera pour les vidéos non publiques (ce qui est un problème car c'est du contenu premium qui est destiné à être vendu).
Scénario parfait: il y a un programme que je peux exécuter à partir de mon bureau pour extraire la transcription de ces vidéos et il est de qualité égale ou meilleure que YouTube et a les codes temporels similaires à un SRT ou au XML que YouTube génère [ Comment obtenir des sous-titres YouTube ].
Scénario acceptable: il y a quelques astuces que je peux faire pour forcer YouTube à transcrire les vidéos, qu'elles soient définies sur privé ou public, et malgré la durée.
Scénario faisable: il existe une bibliothèque ou quelque chose que je peux utiliser pour coder mon propre programme. Je suis bon en C # et d'accord avec C ++ (mais je préfère vraiment C #).