Définition
Latence
Délai qui s'écoule entre le moment où une donnée est soumise à l'IA et le moment où elle fournit sa réponse.
Publié le 4 mars 2026par ZoneIA
La latence correspond au temps d’attente entre une action (ex. envoyer une requête) et la réception du résultat. En IA, elle désigne souvent le délai entre l’envoi d’un prompt ou d’une donnée (image, audio, texte) et la génération de la réponse par le modèle.
D’où vient ce délai ?
La latence est la somme de plusieurs étapes :
- Réseau : aller-retour entre client, API et serveurs (RTT, débit, congestion).
- File d’attente : attente due à la charge (rate limiting, quotas, burst).
- Calcul : temps d’inférence du modèle (taille du modèle, GPU/CPU, batch).
- Traitements annexes : tokenisation, post-traitement, filtrage, logs.
On distingue parfois la latence “time-to-first-token” (TTFT) (premier token reçu) et le temps total (réponse complète). Le streaming peut réduire la latence perçue.
Pourquoi c’est important ?
Une faible latence améliore l’expérience utilisateur, surtout pour :
- chatbots et assistants
- recherche augmentée (RAG)
- traduction, sous-titrage, transcription
- systèmes temps réel (voix, robots, monitoring)
Exemples concrets
- Un assistant qui répond en 300 ms semble “instantané”.
- Une API qui met 8 s peut être acceptable pour un batch, mais pas pour une interface interactive.