Définition
Reconnaissance Vocale (Speech-to-Text)
Technologie permettant de transcrire la voix humaine en texte.
Publié le 4 mars 2026par ZoneIA
La reconnaissance vocale, ou speech-to-text (STT), transforme un signal audio (une voix) en texte exploitable. Elle combine traitement du signal et modèles d’apprentissage automatique pour “comprendre” des phonèmes, des mots, puis des phrases, malgré les accents, le bruit ambiant ou le débit de parole.
Comment ça fonctionne
- Prétraitement audio : réduction de bruit, normalisation du volume, découpage en fenêtres.
- Extraction de caractéristiques : conversion en représentation temporelle/fréquentielle (ex. spectrogrammes).
- Modèle acoustique : réseaux neuronaux (souvent Transformers ou modèles auto-supervisés) qui estiment la séquence de sons.
- Décodage linguistique : intégration d’un vocabulaire et parfois d’un modèle de langage pour choisir la transcription la plus probable.
- Post-traitement : ponctuation, capitalisation, diarisation (qui parle), horodatage.
À quoi ça sert
- Dictée et sous-titrage en temps réel
- Assistants vocaux et commandes mains libres
- Transcription de réunions, podcasts, centres d’appels
- Indexation et recherche dans des contenus audio
Points d’attention
La qualité dépend du micro, du bruit, de la langue et du domaine (jargon). La gestion de la confidentialité (envoi cloud vs traitement local) est souvent un critère majeur.