Vision par Ordinateur (Computer Vision)
Domaine permettant aux ordinateurs de tirer une compréhension de haut niveau à partir d'images ou de vidéos numériques.
La vision par ordinateur regroupe les méthodes qui permettent à une machine d’analyser des pixels (images, flux vidéo) pour en extraire des informations utiles : objets présents, positions, mouvements, texte, ou encore scènes et actions. Elle combine souvent traitement d’image, statistiques et apprentissage automatique, notamment via les réseaux de neurones convolutifs (CNN) et, de plus en plus, des transformers spécialisés.
Comment ça fonctionne
Un pipeline typique comprend :
- Acquisition et prétraitement : redimensionnement, normalisation, réduction du bruit, augmentation de données.
- Extraction de caractéristiques : soit manuelle (bords, points clés), soit apprise automatiquement par un modèle profond.
- Inférence : le modèle produit des sorties (classes, boîtes englobantes, masques de segmentation, coordonnées).
- Post-traitement : filtrage, suivi d’objets, agrégation temporelle sur la vidéo.
À quoi ça sert
Elle est utilisée pour automatiser la perception dans des systèmes réels : contrôle qualité industriel, assistance à la conduite, robotique, sécurité, santé, et interfaces utilisateur.
Exemples concrets
- Classification : reconnaître le type d’objet dans une image.
- Détection : localiser des piétons sur une route.
- Segmentation : isoler précisément une tumeur sur une IRM.
- OCR : extraire du texte d’un document scanné.
- Suivi vidéo : suivre un ballon ou une personne image par image.