Inférence
Phase d'utilisation réelle d'un modèle d'IA entraîné, lorsqu'il reçoit de nouvelles données et effectue une prédiction.
L’inférence correspond au moment où un modèle déjà entraîné est mis en production (ou utilisé en local) pour transformer de nouvelles entrées en sorties : une classe, un score, un texte généré, une recommandation, etc. Contrairement à l’entraînement, on ne cherche plus à ajuster les poids du réseau, mais à appliquer ce qui a été appris.
Comment ça fonctionne
Un système d’inférence suit généralement un pipeline : préparation des données (normalisation, tokenisation), passage dans le modèle (forward pass), puis post-traitement (seuil de décision, décodage, formatage de la réponse). Selon le cas, l’inférence peut être synchrone (réponse immédiate via API) ou batch (traitement de lots).
Enjeux pratiques
L’inférence met l’accent sur la latence, le débit (requêtes/s), le coût et la fiabilité. On utilise souvent des optimisations : quantification (INT8/INT4), compilation, cache, exécution sur GPU/TPU, ou distillation. Pour les LLM, la génération token par token rend la latence plus sensible.
Exemples
- Détection de fraude en temps réel sur une transaction.
- Classement d’images (chat vs chien) dans une application mobile.
- Suggestion de produits via un modèle de recommandation.
- Chatbot qui génère une réponse à partir d’un prompt.