Surapprentissage (Overfitting)
Phénomène où un modèle apprend par cœur ses données d'entraînement mais échoue à généraliser sur de nouvelles données.
Le surapprentissage survient quand un modèle devient trop adapté à son jeu d’entraînement. Il capture non seulement les tendances utiles, mais aussi le bruit et des coïncidences propres aux données vues. Résultat : les performances sont excellentes sur l’entraînement, mais chutent sur un jeu de validation ou en production.
Comment le reconnaître ?
Un signal classique est un écart croissant entre l’erreur d’entraînement (faible) et l’erreur de validation/test (élevée). On le rencontre souvent avec des modèles très flexibles (réseaux de neurones profonds, arbres très profonds) ou des datasets trop petits.
Pourquoi ça arrive ?
Le modèle minimise une fonction de perte sur l’entraînement. S’il a trop de capacité ou s’il s’entraîne trop longtemps, il finit par apprendre des détails non généralisables. Une validation mal conçue (fuite de données, mélange temporel) peut aussi masquer ou accentuer le problème.
Comment le limiter ?
- Plus de données ou augmentation de données (data augmentation).
- Régularisation (L2/weight decay, dropout).
- Arrêt anticipé (early stopping) basé sur la validation.
- Simplifier le modèle ou réduire le nombre de paramètres.
- Validation correcte (cross-validation, split temporel si nécessaire).
Exemple
En classification d’images, un modèle peut mémoriser l’arrière-plan typique d’un dataset (studio, watermark) plutôt que les objets, et échouer dès que le contexte change.