Existe-t-il un logiciel de reconnaissance vocale décent pour Linux?


50

La version courte de la question: Je recherche un logiciel de reconnaissance vocale fonctionnant sous Linux, doté d’une précision et d’une convivialité décentes. Toute licence et prix est correct. Il ne devrait pas être limité aux commandes vocales, car je veux pouvoir dicter du texte.


Plus de détails:

J'ai essayé de manière insatisfaisante les points suivants:

Toutes les solutions Linux natives mentionnées ci-dessus ont à la fois une précision et une facilité d'utilisation médiocres (ou certaines n'autorisent pas la dictée en texte libre mais seulement les commandes vocales). Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné ci-dessous pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il ne cesse de planter et je ne semble pas être le seul à avoir de tels problèmes, malheureusement.

J'utilise Dragon NaturallySpeaking sous Microsoft Windows, Apple Dictation et DragonDictate sous Apple Mac OS XI, sous Android, la reconnaissance vocale Google et sous iOS, la reconnaissance vocale intégrée Apple.

Baidu Research a publié hier le code de sa bibliothèque de reconnaissance vocale utilisant la classification connexionniste temporelle mise en œuvre avec Torch. Les points de repère de Gigaom sont encourageants, comme le montre la capture d'écran ci-dessous, mais je ne suis au courant d'aucun bon wrapper pour le rendre utilisable sans un certain codage (et un jeu de données d'entraînement volumineux):

entrez la description de l'image ici

Il existe des projets open source très alpha:

Je suis également conscient de cette tentative de suivi de l'état des arts et des résultats récents (bibliographie) sur la reconnaissance de la parole. ainsi que cette référence des API de reconnaissance vocale existantes .


Je connais Aenea , qui permet la reconnaissance vocale via Dragonfly sur un ordinateur pour envoyer des événements à un autre, mais cela a un coût en latence:

entrez la description de l'image ici

Je suis également conscient de ces deux conférences explorant l'option de reconnaissance vocale sous Linux:


2
Quelques détails sur ce que vous avez trouvé "insatisfaisant" pourraient faire avancer votre sujet de publication par ailleurs intéressant mais plutôt général. Par exemple: qu'avez-vous trouvé d'insatisfaisant à propos de la combinaison "Wine + Dragon NaturallySpeaking"? (Comment avez-vous échoué à reproduire votre expérience Windows?)
Theophrastus

1
@ Theophrastus Toutes les solutions Linux natives ont à la fois une précision et une convivialité médiocres. Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il n'arrête pas de s'écraser et je ne semble pas être le seul à en avoir malheureusement ( appdb.winehq.org/… )
Franck Dernoncourt

1
Je ne les ai pas essayées, mais au cas où quelqu'un le jugerait utile: github.com/Uberi/speech_recognition et jasperproject.github.io et github.com/benoitfragit/google2ubuntu
Hatshepsut le

Y at-il un de ces logiciels qui a un outil de ligne de commande? Il serait très intéressant de combiner la reconnaissance vocale à un outil de pression de touche et de déplacement de souris comme xdotool ( github.com/jordansissel/xdotool ) ou xsendkey ( github.com/kyoto/sendkeys ).
baptx

Réponses:


13

À l'heure actuelle, j'essaie d'utiliser KDE Connect en combinaison avec la reconnaissance vocale Google sur mon smartphone Android.

KDE connect vous permet d’utiliser votre appareil Android en tant que périphérique d’entrée pour votre ordinateur Linux (il existe également d’autres fonctionnalités). Vous devez installer l'application KDE Connect à partir du Google Play Store sur votre smartphone / tablette et installer kdeconnect et indicateur-kdeconnect sur votre ordinateur Linux. Pour les systèmes Ubuntu, l'installation se déroule comme suit:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

L'inconvénient de cette installation est qu'elle installe un ensemble de packages KDE dont vous n'avez pas besoin si vous n'utilisez pas l'environnement de bureau KDE.

Une fois que votre appareil Android est couplé à votre ordinateur (ils doivent être sur le même réseau), vous pouvez utiliser le clavier Android, puis cliquer / appuyer sur le micro pour utiliser la reconnaissance vocale Google. Au fur et à mesure que vous parlez, du texte commence à apparaître partout où votre curseur est actif sur votre ordinateur Linux.

En ce qui concerne les résultats, ils sont un peu mitigés pour moi car je rédige actuellement un document technique sur l'astrophysique et que la reconnaissance vocale de Google se débat avec le jargon que vous ne lisez pas habituellement. N'oubliez pas non plus qu'il faut déterminer la ponctuation ou la capitalisation appropriée.

entrez la description de l'image ici

entrez la description de l'image ici



3

En tant que Linuxer supplémentaire cherchant un programme utile de dictée (dictée), j’ai jeté un coup d’œil dans speechpad.pw:

  • il reconnaît très bien ma langue maternelle
  • cela fonctionne vite et très fiable

Inconvénients:

  • bien sûr, il s'agit d'un logiciel propriétaire et fermé de Google
  • un service Google écoutera, traitera et stockera soi-disant chaque mot que vous parlez
  • l'audio et le texte seront traités et évidemment stockés par Google
  • speechpad.pw nécessite des frais d'abonnement mensuels / trimestriels / annuels
  • speechpad.pw ne fonctionne qu'en tant qu'addon au navigateur Google Chrome - aucun autre navigateur

Ainsi, speechpad.pw est une source très exclusive, à la fois fermée et liée à Google, que nous connaissons tous en tant que collecteur de métadonnées, informations personnelles et contenus personnels sans sommeil.

Ces inconvénients en font une application incontournable pour moi bien que la reconnaissance de la parole elle-même fonctionne très bien - bien mieux que tout ce que j'ai vu jusqu'à présent.


Merci, oui des inconvénients importants, surtout que cela ne fonctionne que dans le navigateur Chrome.
Franck Dernoncourt

1
Vous pouvez utiliser Google Documents sur Chrome et utiliser l’option "Outils" »" Saisie de texte ... ". Probablement le même logiciel de reconnaissance vocale, mais c'est gratuit. Ensuite, copiez-collez les résultats de votre document là où vous avez besoin du texte.
Alexis Wilke

2

L'application Chrome "VoiceNote II" ( http://voicenote.in/ ) fonctionne parfaitement sur ma machine Xubuntu 16.04. Aucune formation vocale requise et la configuration était simple. Une recherche pour le trouver, un clic pour installer, un clic pour créer un raccourci et pour le lier au Bureau.


Merci, ne fonctionne que dans Google Chrome cependant
Franck Dernoncourt

0

Je suggère d'utiliser dragon sur votre téléphone ou votre tablette, puis de vous envoyer le texte par courrier électronique. C'est un frein mais cela fonctionne et est très précis. Si vous insistez pour utiliser Linux à cet effet, un deuxième écran vous facilitera grandement la tâche de copier-coller.

Je n'ai pas essayé cela, mais vous pourrez peut-être utiliser ou adapter le programme de conversation Bluetooth Python avec dragon sur votre tablette / téléphone. Il peut également y avoir des applications de clavier à distance pour appareils mobiles pouvant prendre en charge la saisie de dictée.

Je vais expérimenter et essayer de vous revenir avec quelque chose de plus définitif.


0

J'utilise l'application KD Connect. cela fonctionne assez efficacement! Je suis capable de garder les yeux sur l'écran tout en parlant avec le téléphone sur le bureau. Le seul inconvénient est que cela se fait via le clavier de Google. ce n'est ni gratuit, ni natif, ni open source.Ce commentaire a été posté sans aucune correction, ni de type


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.