Sous-apprentissage (Underfitting)
Phénomène où un modèle est trop simple pour capturer la complexité des données d'entraînement.
Le sous-apprentissage survient quand un modèle n’a pas assez de capacité (ou n’est pas assez entraîné) pour apprendre les motifs présents dans les données. Il échoue alors à bien expliquer les exemples d’entraînement et, par conséquent, généralise mal sur de nouvelles données. Contrairement au surapprentissage, ici le problème vient d’un modèle trop simple ou d’un apprentissage insuffisant.
Comment le repérer
Un signe typique est une erreur élevée à la fois sur l’entraînement et sur la validation/test. Les courbes d’apprentissage restent “haut” des deux côtés. En classification, on observe souvent une précision faible partout, sans écart marqué entre train et test.
Causes fréquentes
- Modèle trop contraint : linéaire alors que la relation est non linéaire, profondeur/complexité trop faible.
- Trop de régularisation (L1/L2), dropout excessif.
- Entraînement trop court : pas assez d’époques, early stopping trop agressif.
- Représentation des données pauvre : features insuffisantes ou prétraitement inadapté.
Comment le corriger
Augmenter la capacité (modèle plus expressif), réduire la régularisation, entraîner plus longtemps, enrichir les features, ou utiliser des transformations/non-linéarités. En pratique, on cherche un compromis via validation croisée et suivi des métriques.