Je sais qu'un modèle de Markov caché (HMM) est utilisé dans la reconnaissance vocale et je le comprends dans une certaine mesure. Cependant, ce que je ne sais pas, c'est comment l'entrée (la parole) est "transformée" en un vecteur qui sera ensuite utilisé dans HMM.
Comment obtenir un vecteur à partir d'une entrée sonore? Ce vecteur est-il lisible par un humain?