Annotation (Labellisation)
Action d'ajouter des étiquettes ou des métadonnées aux données pour l'apprentissage supervisé.
L’annotation consiste à associer une information cible à des données brutes afin qu’un modèle puisse apprendre à faire des prédictions. En apprentissage supervisé, ces étiquettes représentent la “vérité terrain” (ground truth) : elles servent de référence pendant l’entraînement et l’évaluation.
Comment ça fonctionne
On part d’un jeu de données (images, texte, audio, logs…) et on définit un schéma d’annotation : classes possibles, règles, niveau de détail. Les annotateurs (humains, experts métier ou prestataires) appliquent ces règles via des outils dédiés. L’annotation peut être :
- Classification (spam/non-spam, positif/négatif)
- Détection/segmentation (boîtes englobantes, masques de pixels)
- Extraction (entités nommées dans un texte, champs d’un document)
- Séries temporelles (événements, anomalies)
À quoi ça sert
Des annotations de qualité améliorent la performance du modèle et réduisent les biais. Elles permettent aussi de mesurer la généralisation via des jeux train/validation/test.
Exemples concrets
- Marquer des tickets support par catégorie pour automatiser le routage.
- Annoter des factures (montants, dates) pour l’OCR.
- Taguer des images produit pour la recherche visuelle.
La difficulté principale est la cohérence : il faut gérer l’ambiguïté, l’accord inter-annotateurs, et contrôler la qualité (revue, échantillonnage, active learning).