Définition

Transformer

Architecture de réseau de neurones utilisant des mécanismes d'attention, base des LLM modernes.

Publié le 4 mars 2026par ZoneIA

Un Transformer est une architecture de réseau de neurones conçue pour traiter des séquences (texte, code, audio) en s’appuyant sur un mécanisme clé : l’attention. Contrairement aux réseaux récurrents (RNN/LSTM), il n’a pas besoin de parcourir la séquence mot par mot. Il peut analyser des relations à longue distance de façon plus efficace et parallélisable.

Comment ça fonctionne

Le cœur du modèle est la self-attention : pour chaque token, le réseau estime quels autres tokens sont importants pour le comprendre. Techniquement, cela se fait via des vecteurs queries/keys/values et un calcul d’attention pondérée.
Comme l’attention ne contient pas naturellement l’ordre, on ajoute un encodage positionnel pour représenter la position des tokens.
Un Transformer est souvent composé de blocs répétés : attention multi-têtes, couches feed-forward, résidus et normalisation.

À quoi ça sert

Les Transformers sont la base des LLM (modèles de langage) pour la génération, la traduction, le résumé, la recherche sémantique et l’assistance au code. Ils sont aussi utilisés en vision (Vision Transformers) et en multimodal.