Transformer
Architecture de réseau de neurones utilisant des mécanismes d'attention, base des LLM modernes.
Un Transformer est une architecture de réseau de neurones conçue pour traiter des séquences (texte, code, audio) en s’appuyant sur un mécanisme clé : l’attention. Contrairement aux réseaux récurrents (RNN/LSTM), il n’a pas besoin de parcourir la séquence mot par mot. Il peut analyser des relations à longue distance de façon plus efficace et parallélisable.
Comment ça fonctionne
Le cœur du modèle est la self-attention : pour chaque token, le réseau estime quels autres tokens sont importants pour le comprendre. Techniquement, cela se fait via des vecteurs queries/keys/values et un calcul d’attention pondérée.
Comme l’attention ne contient pas naturellement l’ordre, on ajoute un encodage positionnel pour représenter la position des tokens.
Un Transformer est souvent composé de blocs répétés : attention multi-têtes, couches feed-forward, résidus et normalisation.
À quoi ça sert
Les Transformers sont la base des LLM (modèles de langage) pour la génération, la traduction, le résumé, la recherche sémantique et l’assistance au code. Ils sont aussi utilisés en vision (Vision Transformers) et en multimodal.
Exemples
- Chatbots et assistants (GPT, Llama)
- Traduction automatique (Transformer encoder-decoder)
- Classification de texte, extraction d’informations, détection de similarité