Batch (Lot)
Sous-ensemble du jeu de données traité en une seule fois par le modèle avant la mise à jour de ses poids.
Un batch (ou lot) est un groupe d’exemples d’entraînement (images, phrases, lignes de logs, etc.) que l’on fait passer ensemble dans le modèle pour calculer une prédiction, mesurer l’erreur (loss), puis ajuster les poids. Plutôt que de traiter tout le dataset d’un coup, on le découpe en lots successifs.
Comment ça fonctionne
Pour chaque batch, l’entraînement suit généralement ces étapes :
- Forward pass : le modèle produit des sorties.
- Calcul de la loss : comparaison avec les labels attendus.
- Backpropagation : calcul des gradients.
- Mise à jour : l’optimiseur (SGD, Adam…) met à jour les poids.
Un passage complet sur tous les batches du dataset correspond à une époque (epoch).
Pourquoi c’est utile
Le batch permet de gérer la mémoire (GPU/CPU) et de stabiliser l’apprentissage. Un batch plus grand donne des gradients plus “moyennés” et souvent plus stables, mais consomme plus de mémoire. Un batch plus petit introduit plus de bruit, ce qui peut parfois aider la généralisation.
Exemples
- En vision,
batch_size=32images traitées simultanément. - En NLP, lots de séquences avec padding pour avoir des longueurs compatibles.
- En production, on “batch” des requêtes d’inférence pour augmenter le débit.