Bounding Box (Boîte englobante)
Rectangle dessiné autour d'un objet détecté dans une image pour définir sa position spatiale.
Une boîte englobante est une annotation (ou une prédiction) qui localise un objet dans une image en l’entourant d’un rectangle. Elle sert à indiquer où se trouve l’objet et quelle surface de l’image il occupe, sans décrire sa forme exacte.
Comment c’est représenté
Dans les modèles de vision par ordinateur, le rectangle est généralement encodé par 4 valeurs :
- coordonnées des coins
(x_min, y_min, x_max, y_max), ou - centre + taille
(x_center, y_center, width, height)
Ces valeurs peuvent être en pixels ou normalisées (entre 0 et 1). Une boîte est souvent associée à une classe (ex. “chat”) et un score de confiance.
Comment c’est produit
En détection d’objets (YOLO, Faster R-CNN, SSD…), le réseau prédit plusieurs boîtes candidates, puis un filtrage comme la suppression non maximale (NMS) élimine les boîtes redondantes. La qualité est fréquemment mesurée avec l’IoU (Intersection over Union), qui compare le recouvrement entre prédiction et vérité terrain.
À quoi ça sert
- comptage et suivi d’objets (tracking)
- analyse de scènes (sécurité, retail, sport)
- aide au recadrage ou à la reconnaissance d’objets
- pré-étape avant une segmentation plus fine (masque de pixels)