Application de reconnaissance vocale pour convertir des MP3 en texte?

27

Est-ce que quelqu'un connaît une application qui peut convertir l'audio en texte? J'utilise ubuntu 12.04 LTS.

software-recommendation speech-recognition

— Kopano
source

Je suppose que c'est du texte parlé. Dans quelle langue est ce texte?

— Martin Ueding

Le texte du discours est en anglais simple.

— Kopano

21

Le logiciel que vous pouvez utiliser est CMUSphinx . Contrairement à ce qui est suggéré dans une autre réponse, Julius ne convient pas car il nécessite des modèles. Les modèles de reconnaissance vocale de vocabulaire étendu ne sont pas disponibles pour Julius.

Vous pouvez utiliser pochesphinx pour convertir un fichier audio. Ces deux commandes doivent faire le travail. Vous convertissez d'abord le fichier au format requis, puis vous le reconnaissez:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Le run pochesphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Le résultat sera stocké dans result.txt.

— Nikolay Shmyrev
source

aussi, en plus de cette réponse, il y a une démo sympa des deux speech recognitionet des voice commandoutils ici: youtube.com/…

— Daithí

Comment ajouter un modèle acoustique au système?

— jarno

Vous venez de le télécharger et de le déballer, il n'y a rien de tel que "ajouter au système"

— Nikolay Shmyrev

@NikolayShmyrev Où dois-je le déballer pour que pochesphinx_continuous le trouve?

— jarno

4

Eh bien, j'ai installé les packages pochesphinx-utils, pochesphinx-hmm-en-hub4wsj et pochesphinx-lm-en-hub4 dans le référentiel d'univers d'Ubuntu 14.04. Puis pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logtravaillé. Ce ne sont peut-être pas des packages optimaux, mais ce sont les meilleures correspondances que j'ai pu trouver dans les référentiels.

— jarno

12

Je sais que c'est vieux, mais pour développer la réponse de Nikolay et, espérons-le, faire gagner du temps à quelqu'un, afin d'obtenir une version à jour de pochesphinx, vous devez la compiler à partir du référentiel github ou sourceforge (pas sûr qui est tenu à jour). Notez que -j8 signifie exécuter 8 travaux distincts en parallèle si possible; si vous avez plus de cœurs CPU, vous pouvez augmenter le nombre.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Ensuite, à partir de: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ téléchargez les dernières versions de cmusphinx-en-us-....tar.gzeten-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Ensuite, vous pouvez enfin passer aux étapes de la réponse de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx fonctionne bien. Je ne m'y fierais pas pour faire une version lisible du texte, mais c'est assez bon pour que vous puissiez le rechercher si vous recherchez un devis particulier. Cela fonctionne particulièrement bien si vous utilisez un algorithme de recherche comme Xapian ( http://www.lesbonscomptes.com/recoll/ ) qui accepte les caractères génériques et ne nécessite pas d'expressions de recherche exactes.

J'espère que cela t'aides.

— Jonathan Perry-Houts
source

4

tout fonctionne comme un charme, mais dans mon cas, j'ai dû exécuter la commande suivante pour corriger

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— Vijay Dohare

Ceci est également recommandé sur cmusphinx.github.io/wiki/tutorialpocketsphinx/…

— andrybak

11

Si vous cherchez à convertir la parole en texte, vous pouvez essayer d'ouvrir votre Ubuntu Software Center et rechercher Julius

La description

"Julius" est un logiciel de décodage de reconnaissance vocale continue (LVCSR) à grand vocabulaire à deux passes de haute performance pour les chercheurs et développeurs en matière de parole.

Ou une autre option qui n'est pas dans le Software Center est Simon

... est un programme de reconnaissance vocale open source qui remplace la souris et le clavier.

Liens de référence

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
source

1

Vous pouvez utiliser le panneau de transcription speechpad.pw

Voir la vidéo d'utilisation de la transcription

— alexei
source

Cela a l'air cool bien que je ne pense pas que cela réponde à la question qui était d'obtenir une transcription d'un fichier existant. Cela étant dit, je viens d'essayer Sphinx et il a lamentablement échoué ... la transcription était incorrecte à 99,9%.

— Alexis Wilke