K-Means
Algorithme de partitionnement (clustering) non supervisé qui regroupe les données en 'K' groupes distincts.
K-Means est une méthode de clustering qui cherche à regrouper des observations similaires en un nombre fixé de groupes. Chaque groupe est représenté par un centroïde (un point “moyen” du cluster). L’objectif est de minimiser la distance entre les points et le centroïde de leur groupe, le plus souvent via la distance euclidienne.
Comment ça fonctionne
- Initialisation : choix de K centroïdes (aléatoire ou via k-means++ pour de meilleurs démarrages).
- Affectation : chaque point est assigné au centroïde le plus proche.
- Mise à jour : chaque centroïde devient la moyenne des points qui lui sont assignés.
- Itération : répétition jusqu’à stabilisation (ou nombre maximal d’itérations).
À quoi ça sert
- Segmenter une population (clients, utilisateurs, documents) en profils.
- Résumer des données en catégories exploitables pour des analyses.
- Accélérer certains traitements en vector quantization (compression, indexation).
Points d’attention
K doit être choisi (méthodes du “coude”, silhouette). L’algorithme est sensible à l’échelle des variables (souvent besoin de normalisation) et fonctionne moins bien sur des clusters non sphériques ou de densités très différentes.
Exemple : regrouper des clients selon fréquence d’achat et panier moyen pour personnaliser des offres.