Définition
Token
Unité de base de traitement du texte par une IA (peut être un mot, une syllabe ou un caractère).
Publié le 4 mars 2026par ZoneIA
Un modèle de langage ne “voit” pas directement des phrases, mais une suite de petites unités appelées tokens. Selon le système de tokenisation, un token peut correspondre à un mot entier, une partie de mot (sous-mot), un caractère, ou même un symbole de ponctuation. Cette découpe permet de transformer du texte en une représentation manipulable par le modèle.
Comment ça fonctionne
- Tokenisation : le texte est découpé en tokens selon un vocabulaire (souvent basé sur des sous-mots, type BPE/WordPiece).
- Encodage : chaque token est converti en un identifiant numérique (ID).
- Traitement : le modèle calcule des probabilités pour prédire le token suivant et générer du texte.
Les sous-mots sont utiles pour gérer les mots rares, les fautes, ou les langues variées, en recomposant des termes à partir d’unités fréquentes.
Pourquoi c’est important
- Coût et limites : les API et modèles imposent une fenêtre de contexte en nombre de tokens, pas en nombre de caractères. Plus il y a de tokens, plus c’est cher et plus on risque de dépasser la limite.
- Qualité : la découpe influence la compréhension de noms propres, du code, ou des langues avec peu d’espaces.
Exemple
La phrase « tokenisation efficace » peut être découpée en ["token", "isation", "efficace"] selon le vocabulaire utilisé.