Définition

Inférence

Phase d'utilisation réelle d'un modèle d'IA entraîné, lorsqu'il reçoit de nouvelles données et effectue une prédiction.

Publié le 4 mars 2026par ZoneIA

L’inférence correspond au moment où un modèle déjà entraîné est mis en production (ou utilisé en local) pour transformer de nouvelles entrées en sorties : une classe, un score, un texte généré, une recommandation, etc. Contrairement à l’entraînement, on ne cherche plus à ajuster les poids du réseau, mais à appliquer ce qui a été appris.

Comment ça fonctionne

Un système d’inférence suit généralement un pipeline : préparation des données (normalisation, tokenisation), passage dans le modèle (forward pass), puis post-traitement (seuil de décision, décodage, formatage de la réponse). Selon le cas, l’inférence peut être synchrone (réponse immédiate via API) ou batch (traitement de lots).

Enjeux pratiques

L’inférence met l’accent sur la latence, le débit (requêtes/s), le coût et la fiabilité. On utilise souvent des optimisations : quantification (INT8/INT4), compilation, cache, exécution sur GPU/TPU, ou distillation. Pour les LLM, la génération token par token rend la latence plus sensible.