Data Augmentation
Technique visant à augmenter artificiellement la taille d'un dataset en modifiant légèrement les données existantes (ex: rotation d'une image).
La data augmentation consiste à générer de nouvelles données d’entraînement à partir d’exemples existants, via des transformations contrôlées. L’objectif est d’améliorer la capacité de généralisation d’un modèle, surtout quand le dataset est limité ou déséquilibré. Plutôt que de collecter plus de données, on enrichit la variabilité perçue par le modèle.
Comment ça fonctionne
On applique des transformations qui conservent le label (ou le sens) de l’exemple. Pour des images : rotation, recadrage, miroir, bruit, variation de luminosité. Pour du texte : paraphrases, suppression/ajout de mots, back-translation (traduire puis retraduire). Pour l’audio : changement de pitch, time-stretch, bruit de fond. Ces opérations peuvent être faites offline (pré-générées) ou online (à la volée pendant l’entraînement).
Pourquoi c’est utile
- Réduit le surapprentissage en exposant le modèle à plus de cas possibles.
- Améliore la robustesse aux variations réelles (angle, éclairage, accents, fautes).
- Aide à traiter le déséquilibre de classes en augmentant davantage les classes rares.
Points d’attention
Une augmentation trop agressive peut dégrader le signal et introduire du bruit labelisé. Il faut choisir des transformations pertinentes pour le domaine (ex. retourner une image de chiffres peut changer le sens).