Apprentissage Non Supervisé
Entraînement d'un modèle sur des données non étiquetées pour y découvrir des structures sous-jacentes.
L’apprentissage non supervisé regroupe des méthodes qui analysent des données sans labels (pas de “bonne réponse” fournie) afin d’identifier des patterns : groupes, similarités, dimensions importantes ou anomalies. Il est souvent utilisé en amont, quand on dispose de beaucoup de données mais peu d’annotations, ou quand on cherche à explorer un domaine.
Comment ça fonctionne
Le modèle optimise un objectif qui ne dépend pas d’étiquettes. Selon l’approche, il peut :
- regrouper des points proches (clustering) en minimisant la distance intra-groupe ;
- réduire la dimension en conservant l’essentiel de l’information (PCA, autoencodeurs) ;
- estimer la densité des données pour détecter ce qui est rare (anomalies).
Les données sont généralement vectorisées (features numériques) puis normalisées. Le résultat n’est pas une “prédiction” au sens classique, mais une structure (clusters, composantes, embeddings).
À quoi ça sert
- Segmentation d’utilisateurs ou de produits (marketing, recommandations).
- Détection d’anomalies (fraude, capteurs industriels, cybersécurité).
- Exploration et visualisation de grands jeux de données (UMAP/t-SNE).
- Prétraitement pour améliorer un modèle supervisé (features, embeddings).
Exemples courants
K-means, DBSCAN, modèles de mélanges gaussiens, PCA, autoencodeurs, modèles de topics (LDA).