Clustering (Partitionnement)
Tâche d'apprentissage non supervisé consistant à regrouper des objets similaires dans des ensembles.
Le partitionnement (ou clustering) vise à découvrir automatiquement des groupes naturels dans des données, sans étiquettes préexistantes. L’idée est de regrouper les objets « qui se ressemblent » selon des caractéristiques mesurables (variables numériques, embeddings, signaux, etc.), tout en séparant ceux qui sont différents.
Comment ça fonctionne
La plupart des méthodes reposent sur une notion de similarité ou de distance (euclidienne, cosinus, etc.). L’algorithme cherche ensuite une organisation des points qui optimise un critère : minimiser la dispersion à l’intérieur des groupes, maximiser la séparation entre groupes, ou identifier des zones denses. Le résultat dépend fortement du prétraitement (normalisation), du choix de features et d’hyperparamètres (ex. nombre de groupes).
Méthodes courantes
- k-means : impose k groupes, rapide, adapté à des clusters « ronds ».
- Clustering hiérarchique : construit un dendrogramme, utile pour explorer plusieurs granularités.
- DBSCAN / HDBSCAN : détecte des groupes de densité, gère le bruit et des formes complexes.
- Gaussian Mixture Models : clusters probabilistes, utile si les groupes se recouvrent.
Usages concrets
Segmentation clients, regroupement de documents, détection d’anomalies (points isolés), exploration de données et réduction de complexité via regroupement d’embeddings (NLP, vision).