Réponses:
Le logiciel que vous pouvez utiliser est CMUSphinx . Contrairement à ce qui est suggéré dans une autre réponse, Julius ne convient pas car il nécessite des modèles. Les modèles de reconnaissance vocale de vocabulaire étendu ne sont pas disponibles pour Julius.
Vous pouvez utiliser pochesphinx pour convertir un fichier audio. Ces deux commandes doivent faire le travail. Vous convertissez d'abord le fichier au format requis, puis vous le reconnaissez:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Le run pochesphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Le résultat sera stocké dans result.txt.
speech recognition
et des voice command
outils ici: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
travaillé. Ce ne sont peut-être pas des packages optimaux, mais ce sont les meilleures correspondances que j'ai pu trouver dans les référentiels.
Je sais que c'est vieux, mais pour développer la réponse de Nikolay et, espérons-le, faire gagner du temps à quelqu'un, afin d'obtenir une version à jour de pochesphinx, vous devez la compiler à partir du référentiel github ou sourceforge (pas sûr qui est tenu à jour). Notez que -j8 signifie exécuter 8 travaux distincts en parallèle si possible; si vous avez plus de cœurs CPU, vous pouvez augmenter le nombre.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Ensuite, à partir de: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
téléchargez les dernières versions de cmusphinx-en-us-....tar.gz
eten-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Ensuite, vous pouvez enfin passer aux étapes de la réponse de Nikolay:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Sphinx fonctionne bien. Je ne m'y fierais pas pour faire une version lisible du texte, mais c'est assez bon pour que vous puissiez le rechercher si vous recherchez un devis particulier. Cela fonctionne particulièrement bien si vous utilisez un algorithme de recherche comme Xapian ( http://www.lesbonscomptes.com/recoll/ ) qui accepte les caractères génériques et ne nécessite pas d'expressions de recherche exactes.
J'espère que cela t'aides.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Si vous cherchez à convertir la parole en texte, vous pouvez essayer d'ouvrir votre Ubuntu Software Center et rechercher Julius
La description
"Julius" est un logiciel de décodage de reconnaissance vocale continue (LVCSR) à grand vocabulaire à deux passes de haute performance pour les chercheurs et développeurs en matière de parole.
Ou une autre option qui n'est pas dans le Software Center est Simon
... est un programme de reconnaissance vocale open source qui remplace la souris et le clavier.
Liens de référence
http://julius.sourceforge.jp/en_index.php
Vous pouvez utiliser le panneau de transcription speechpad.pw