Définition

Reconnaissance Vocale (Speech-to-Text)

Technologie permettant de transcrire la voix humaine en texte.

Publié le 4 mars 2026par ZoneIA

La reconnaissance vocale, ou speech-to-text (STT), transforme un signal audio (une voix) en texte exploitable. Elle combine traitement du signal et modèles d’apprentissage automatique pour “comprendre” des phonèmes, des mots, puis des phrases, malgré les accents, le bruit ambiant ou le débit de parole.

Comment ça fonctionne

Prétraitement audio : réduction de bruit, normalisation du volume, découpage en fenêtres.
Extraction de caractéristiques : conversion en représentation temporelle/fréquentielle (ex. spectrogrammes).
Modèle acoustique : réseaux neuronaux (souvent Transformers ou modèles auto-supervisés) qui estiment la séquence de sons.
Décodage linguistique : intégration d’un vocabulaire et parfois d’un modèle de langage pour choisir la transcription la plus probable.
Post-traitement : ponctuation, capitalisation, diarisation (qui parle), horodatage.

À quoi ça sert

Dictée et sous-titrage en temps réel
Assistants vocaux et commandes mains libres
Transcription de réunions, podcasts, centres d’appels
Indexation et recherche dans des contenus audio

Points d’attention

La qualité dépend du micro, du bruit, de la langue et du domaine (jargon). La gestion de la confidentialité (envoi cloud vs traitement local) est souvent un critère majeur.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Reconnaissance Vocale (Speech-to-Text)

Comment ça fonctionne

À quoi ça sert

Points d’attention

Continuez votre exploration

Autres définitions

Reconnaissance Vocale (Speech-to-Text)

Comment ça fonctionne

À quoi ça sert

Points d’attention

Continuez votre exploration

Autres définitions