Zero-shot Learning
Capacité d'un modèle à accomplir une tâche pour laquelle il n'a reçu aucun exemple explicite lors de son entraînement.
Le zero-shot learning décrit la capacité d’un modèle à généraliser à une nouvelle tâche, une nouvelle classe ou un nouveau format de sortie sans avoir vu d’exemples annotés spécifiques pendant l’entraînement. L’idée clé est que le modèle réutilise des connaissances déjà apprises (langage, concepts, relations) pour interpréter une consigne et produire un résultat pertinent.
Comment ça marche
Dans les modèles de langage, cette compétence repose souvent sur :
- une pré‑entraînement massif sur des textes variés, qui fournit des représentations riches ;
- la compréhension d’instructions en langage naturel (prompting) ;
- parfois des mécanismes d’alignement (ex. instruction tuning) qui améliorent l’obéissance aux consignes.
Dans d’autres domaines (vision, audio), on utilise des représentations communes (ex. image ↔ texte) : le modèle associe une nouvelle étiquette à une description textuelle plutôt qu’à des exemples.
À quoi ça sert
Le zero-shot learning réduit le besoin de données annotées et accélère le prototypage. Il est utile quand les classes changent souvent, quand les données sont rares, ou quand on veut tester rapidement une nouvelle tâche.
Exemples
- Classer des avis en “positif/négatif” via une consigne, sans fine-tuning.
- Extraire des entités (noms, dates) à partir d’un prompt décrivant le format attendu.
- Décrire une image selon un nouveau schéma de catégories défini par texte.
Limite fréquente : performances inférieures au few-shot ou au fine-tuning, surtout sur des tâches très spécialisées.