Apprentissage Semi-supervisé
Méthode utilisant une petite quantité de données étiquetées et une grande quantité de données non étiquetées.
L’apprentissage semi-supervisé vise à tirer parti d’un petit jeu de données annotées (labels fiables) et d’un grand volume de données non annotées (souvent plus faciles à collecter). Il se situe entre l’apprentissage supervisé (tout étiqueté) et non supervisé (rien d’étiqueté). L’objectif est d’améliorer la performance d’un modèle quand l’annotation est coûteuse ou lente.
Comment ça fonctionne
Le principe est d’utiliser les données non étiquetées pour contraindre ou renforcer l’apprentissage. Parmi les approches courantes :
- Pseudo-étiquetage : le modèle prédit des labels sur les données non étiquetées, puis réapprend en utilisant les prédictions les plus confiantes.
- Régularisation par cohérence : on force le modèle à donner des prédictions similaires pour une même entrée légèrement perturbée (augmentation de données, bruit).
- Méthodes par graphes : on propage les labels via la similarité entre exemples.
À quoi ça sert
- Réduire les coûts d’annotation tout en approchant les performances d’un modèle supervisé.
- Exploiter des corpus massifs (texte, images, logs) avec peu de labels.
Exemples
Classification d’images avec peu d’annotations, détection de spam, analyse de sentiments, ou tri de tickets support où seules quelques catégories sont labellisées.