La version courte de la question: Je recherche un logiciel de reconnaissance vocale fonctionnant sous Linux, doté d’une précision et d’une convivialité décentes. Toute licence et prix est correct. Il ne devrait pas être limité aux commandes vocales, car je veux pouvoir dicter du texte.
Plus de détails:
J'ai essayé de manière insatisfaisante les points suivants:
- CMU Sphinx
- CVoiceControl
- Oreilles
- Julius
- Kaldi (par exemple, serveur Kaldi GStreamer )
- IBM ViaVoice (utilisé sur Linux mais a été arrêté il y a plusieurs années)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- crier
- silvius (construit sur la boîte à outils de reconnaissance vocale Kaldi)
- Simon écoute
- ViaVoice / Xvoice
- Vin + Dragon NaturallySpeaking + NatLink + libellule + damselfly
- https://github.com/DragonComputer/Dragonfire : accepte uniquement les commandes vocales
Toutes les solutions Linux natives mentionnées ci-dessus ont à la fois une précision et une facilité d'utilisation médiocres (ou certaines n'autorisent pas la dictée en texte libre mais seulement les commandes vocales). Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné ci-dessous pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il ne cesse de planter et je ne semble pas être le seul à avoir de tels problèmes, malheureusement.
J'utilise Dragon NaturallySpeaking sous Microsoft Windows, Apple Dictation et DragonDictate sous Apple Mac OS XI, sous Android, la reconnaissance vocale Google et sous iOS, la reconnaissance vocale intégrée Apple.
Baidu Research a publié hier le code de sa bibliothèque de reconnaissance vocale utilisant la classification connexionniste temporelle mise en œuvre avec Torch. Les points de repère de Gigaom sont encourageants, comme le montre la capture d'écran ci-dessous, mais je ne suis au courant d'aucun bon wrapper pour le rendre utilisable sans un certain codage (et un jeu de données d'entraînement volumineux):
Il existe des projets open source très alpha:
- https://github.com/mozilla/DeepSpeech (partie du projet Vaani de Mozilla: http://vaani.io ( miroir ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, un système permettant de contrôler un système Linux à l'aide de Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (à paraître par Google, mentionné à Interspeech 2018)
Je suis également conscient de cette tentative de suivi de l'état des arts et des résultats récents (bibliographie) sur la reconnaissance de la parole. ainsi que cette référence des API de reconnaissance vocale existantes .
Je connais Aenea , qui permet la reconnaissance vocale via Dragonfly sur un ordinateur pour envoyer des événements à un autre, mais cela a un coût en latence:
Je suis également conscient de ces deux conférences explorant l'option de reconnaissance vocale sous Linux:
- 2016 - The Eleventh HOPE: Codage à l'aide de la reconnaissance vocale Open Source (David Williams-King)
- 2014 - Pycon: Utiliser Python pour coder par voix (Tavis Rudd)