Définition

Latence

Délai qui s'écoule entre le moment où une donnée est soumise à l'IA et le moment où elle fournit sa réponse.

Publié le 4 mars 2026par ZoneIA

La latence correspond au temps d’attente entre une action (ex. envoyer une requête) et la réception du résultat. En IA, elle désigne souvent le délai entre l’envoi d’un prompt ou d’une donnée (image, audio, texte) et la génération de la réponse par le modèle.

D’où vient ce délai ?

La latence est la somme de plusieurs étapes :

Réseau : aller-retour entre client, API et serveurs (RTT, débit, congestion).
File d’attente : attente due à la charge (rate limiting, quotas, burst).
Calcul : temps d’inférence du modèle (taille du modèle, GPU/CPU, batch).
Traitements annexes : tokenisation, post-traitement, filtrage, logs.

On distingue parfois la latence “time-to-first-token” (TTFT) (premier token reçu) et le temps total (réponse complète). Le streaming peut réduire la latence perçue.

Pourquoi c’est important ?

Une faible latence améliore l’expérience utilisateur, surtout pour :

chatbots et assistants
recherche augmentée (RAG)
traduction, sous-titrage, transcription
systèmes temps réel (voix, robots, monitoring)

Exemples concrets

Un assistant qui répond en 300 ms semble “instantané”.
Une API qui met 8 s peut être acceptable pour un batch, mais pas pour une interface interactive.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Latence

D’où vient ce délai ?

Pourquoi c’est important ?

Exemples concrets

Continuez votre exploration

Autres définitions

Latence

D’où vient ce délai ?

Pourquoi c’est important ?

Exemples concrets

Continuez votre exploration

Autres définitions