Ensemble d'entraînement (Training set)
Partie du jeu de données utilisée exclusivement pour ajuster les poids du modèle.
Un ensemble d’entraînement regroupe les exemples sur lesquels un modèle apprend réellement. C’est la portion du dataset utilisée pendant l’optimisation pour ajuster les paramètres internes (poids) afin de réduire une fonction de perte (loss). Il contient généralement des entrées (features) et, en apprentissage supervisé, des sorties attendues (labels).
Comment ça fonctionne
Lors de l’entraînement, les données sont parcourues en lots (mini-batches). Le modèle produit une prédiction, on calcule l’erreur, puis un algorithme d’optimisation (souvent gradient descent et variantes comme Adam) met à jour les poids via la rétropropagation. On répète ce processus sur plusieurs epochs (passes complètes sur l’ensemble).
À quoi ça sert
Il sert à apprendre des motifs statistiques et à généraliser à de nouvelles données. Sa qualité (taille, diversité, bruit, biais) influence fortement les performances et les comportements du modèle.
Bonnes pratiques et pièges
- Séparation stricte : il ne doit pas inclure d’exemples du jeu de validation ou de test, sinon risque de fuite de données (data leakage).
- Représentativité : un training set trop différent du monde réel dégrade la généralisation.
- Surapprentissage : un modèle peut “mémoriser” l’entraînement; on surveille cela via la validation, la régularisation et l’augmentation de données.
Exemple : pour classifier des emails, le training set contient des emails étiquetés “spam”/“non-spam” utilisés pour ajuster le classifieur.