Existe-t-il un logiciel de reconnaissance vocale décent pour Linux?

50

La version courte de la question: Je recherche un logiciel de reconnaissance vocale fonctionnant sous Linux, doté d’une précision et d’une convivialité décentes. Toute licence et prix est correct. Il ne devrait pas être limité aux commandes vocales, car je veux pouvoir dicter du texte.

Plus de détails:

J'ai essayé de manière insatisfaisante les points suivants:

CMU Sphinx
CVoiceControl
Oreilles
Julius
Kaldi (par exemple, serveur Kaldi GStreamer )
IBM ViaVoice (utilisé sur Linux mais a été arrêté il y a plusieurs années)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
crier
silvius (construit sur la boîte à outils de reconnaissance vocale Kaldi)
Simon écoute
ViaVoice / Xvoice
Vin + Dragon NaturallySpeaking + NatLink + libellule + damselfly
https://github.com/DragonComputer/Dragonfire : accepte uniquement les commandes vocales

Toutes les solutions Linux natives mentionnées ci-dessus ont à la fois une précision et une facilité d'utilisation médiocres (ou certaines n'autorisent pas la dictée en texte libre mais seulement les commandes vocales). Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné ci-dessous pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il ne cesse de planter et je ne semble pas être le seul à avoir de tels problèmes, malheureusement.

J'utilise Dragon NaturallySpeaking sous Microsoft Windows, Apple Dictation et DragonDictate sous Apple Mac OS XI, sous Android, la reconnaissance vocale Google et sous iOS, la reconnaissance vocale intégrée Apple.

Baidu Research a publié hier le code de sa bibliothèque de reconnaissance vocale utilisant la classification connexionniste temporelle mise en œuvre avec Torch. Les points de repère de Gigaom sont encourageants, comme le montre la capture d'écran ci-dessous, mais je ne suis au courant d'aucun bon wrapper pour le rendre utilisable sans un certain codage (et un jeu de données d'entraînement volumineux):

Il existe des projets open source très alpha:

https://github.com/mozilla/DeepSpeech (partie du projet Vaani de Mozilla: http://vaani.io ( miroir ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, un système permettant de contrôler un système Linux à l'aide de Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (à paraître par Google, mentionné à Interspeech 2018)

Je suis également conscient de cette tentative de suivi de l'état des arts et des résultats récents (bibliographie) sur la reconnaissance de la parole. ainsi que cette référence des API de reconnaissance vocale existantes .

Je connais Aenea , qui permet la reconnaissance vocale via Dragonfly sur un ordinateur pour envoyer des événements à un autre, mais cela a un coût en latence:

Je suis également conscient de ces deux conférences explorant l'option de reconnaissance vocale sous Linux:

2016 - The Eleventh HOPE: Codage à l'aide de la reconnaissance vocale Open Source (David Williams-King)
2014 - Pycon: Utiliser Python pour coder par voix (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
source

2

Quelques détails sur ce que vous avez trouvé "insatisfaisant" pourraient faire avancer votre sujet de publication par ailleurs intéressant mais plutôt général. Par exemple: qu'avez-vous trouvé d'insatisfaisant à propos de la combinaison "Wine + Dragon NaturallySpeaking"? (Comment avez-vous échoué à reproduire votre expérience Windows?)

— Theophrastus

1

@ Theophrastus Toutes les solutions Linux natives ont à la fois une précision et une convivialité médiocres. Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il n'arrête pas de s'écraser et je ne semble pas être le seul à en avoir malheureusement ( appdb.winehq.org/… )

— Franck Dernoncourt

1

Je ne les ai pas essayées, mais au cas où quelqu'un le jugerait utile: github.com/Uberi/speech_recognition et jasperproject.github.io et github.com/benoitfragit/google2ubuntu

— Hatshepsut le

Y at-il un de ces logiciels qui a un outil de ligne de commande? Il serait très intéressant de combiner la reconnaissance vocale à un outil de pression de touche et de déplacement de souris comme xdotool ( github.com/jordansissel/xdotool ) ou xsendkey ( github.com/kyoto/sendkeys ).

— baptx

13

À l'heure actuelle, j'essaie d'utiliser KDE Connect en combinaison avec la reconnaissance vocale Google sur mon smartphone Android.

KDE connect vous permet d’utiliser votre appareil Android en tant que périphérique d’entrée pour votre ordinateur Linux (il existe également d’autres fonctionnalités). Vous devez installer l'application KDE Connect à partir du Google Play Store sur votre smartphone / tablette et installer kdeconnect et indicateur-kdeconnect sur votre ordinateur Linux. Pour les systèmes Ubuntu, l'installation se déroule comme suit:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

L'inconvénient de cette installation est qu'elle installe un ensemble de packages KDE dont vous n'avez pas besoin si vous n'utilisez pas l'environnement de bureau KDE.

Une fois que votre appareil Android est couplé à votre ordinateur (ils doivent être sur le même réseau), vous pouvez utiliser le clavier Android, puis cliquer / appuyer sur le micro pour utiliser la reconnaissance vocale Google. Au fur et à mesure que vous parlez, du texte commence à apparaître partout où votre curseur est actif sur votre ordinateur Linux.

En ce qui concerne les résultats, ils sont un peu mitigés pour moi car je rédige actuellement un document technique sur l'astrophysique et que la reconnaissance vocale de Google se débat avec le jargon que vous ne lisez pas habituellement. N'oubliez pas non plus qu'il faut déterminer la ponctuation ou la capitalisation appropriée.

— brûleur de choc
source

4

Pour l'instant, seul le cahier Voice fonctionne sous Linux.

— Alexei
source

2

Merci, cela ne fonctionne que dans le navigateur Chrome si.

— Franck Dernoncourt

3

En tant que Linuxer supplémentaire cherchant un programme utile de dictée (dictée), j’ai jeté un coup d’œil dans speechpad.pw:

il reconnaît très bien ma langue maternelle
cela fonctionne vite et très fiable

Inconvénients:

bien sûr, il s'agit d'un logiciel propriétaire et fermé de Google
un service Google écoutera, traitera et stockera soi-disant chaque mot que vous parlez
l'audio et le texte seront traités et évidemment stockés par Google
speechpad.pw nécessite des frais d'abonnement mensuels / trimestriels / annuels
speechpad.pw ne fonctionne qu'en tant qu'addon au navigateur Google Chrome - aucun autre navigateur

Ainsi, speechpad.pw est une source très exclusive, à la fois fermée et liée à Google, que nous connaissons tous en tant que collecteur de métadonnées, informations personnelles et contenus personnels sans sommeil.

Ces inconvénients en font une application incontournable pour moi bien que la reconnaissance de la parole elle-même fonctionne très bien - bien mieux que tout ce que j'ai vu jusqu'à présent.

— aussi
source

Merci, oui des inconvénients importants, surtout que cela ne fonctionne que dans le navigateur Chrome.

— Franck Dernoncourt

1

Vous pouvez utiliser Google Documents sur Chrome et utiliser l’option "Outils" »" Saisie de texte ... ". Probablement le même logiciel de reconnaissance vocale, mais c'est gratuit. Ensuite, copiez-collez les résultats de votre document là où vous avez besoin du texte.

— Alexis Wilke

2

L'application Chrome "VoiceNote II" ( http://voicenote.in/ ) fonctionne parfaitement sur ma machine Xubuntu 16.04. Aucune formation vocale requise et la configuration était simple. Une recherche pour le trouver, un clic pour installer, un clic pour créer un raccourci et pour le lier au Bureau.

— Indy Tech Fix
source

Merci, ne fonctionne que dans Google Chrome cependant

— Franck Dernoncourt

0

Je suggère d'utiliser dragon sur votre téléphone ou votre tablette, puis de vous envoyer le texte par courrier électronique. C'est un frein mais cela fonctionne et est très précis. Si vous insistez pour utiliser Linux à cet effet, un deuxième écran vous facilitera grandement la tâche de copier-coller.

Je n'ai pas essayé cela, mais vous pourrez peut-être utiliser ou adapter le programme de conversation Bluetooth Python avec dragon sur votre tablette / téléphone. Il peut également y avoir des applications de clavier à distance pour appareils mobiles pouvant prendre en charge la saisie de dictée.

Je vais expérimenter et essayer de vous revenir avec quelque chose de plus définitif.

— utilisateur273470
source

0

J'utilise l'application KD Connect. cela fonctionne assez efficacement! Je suis capable de garder les yeux sur l'écran tout en parlant avec le téléphone sur le bureau. Le seul inconvénient est que cela se fait via le clavier de Google. ce n'est ni gratuit, ni natif, ni open source.Ce commentaire a été posté sans aucune correction, ni de type

— Josh Levine
source

-2

Vous pouvez utiliser la synthèse vocale dans l’application Linux. Cette application utilise Google Speech Api et le module d’intégration binaire pour Linux 32 ou 64 bits. Vous pouvez voir une brève présentation de l’ utilisation des outils speechpad.pw dans Ubuntu.

— Pavel Popov
source

1

OP est à la recherche d'un moteur de synthèse vocale. C'est juste une enveloppe Web-UI (et une mauvaise en plus) autour d' un moteur STT.

— Cerin