PCA (Analyse en Composantes Principales)
Technique de réduction de dimension permettant de simplifier la complexité d'un grand nombre de variables.
La PCA est une méthode statistique qui projette des données multidimensionnelles vers un espace de plus faible dimension, tout en conservant au mieux l’information (au sens de la variance). Elle est très utilisée en data science pour rendre des jeux de données plus simples à analyser, visualiser ou traiter par des modèles.
Comment ça fonctionne
On part d’un ensemble de variables (features) souvent corrélées. La PCA calcule de nouvelles variables, appelées composantes principales, qui sont :
- des combinaisons linéaires des variables d’origine ;
- orthogonales entre elles (indépendantes géométriquement) ;
- triées : la première explique le plus de variance, la suivante un peu moins, etc.
On choisit ensuite un nombre réduit de composantes (ex. 2, 10, 50) pour représenter les données avec une perte contrôlée.
À quoi ça sert
- Réduction de dimension pour accélérer l’entraînement et limiter le surapprentissage.
- Débruitage : les dernières composantes capturent souvent du bruit.
- Visualisation en 2D/3D de données complexes (exploration, clustering).
- Prétraitement avant régression, classification ou détection d’anomalies.
Exemple concret
Pour des données clients avec 100 variables, on peut conserver 10 composantes expliquant, par exemple, 95 % de la variance, et entraîner un modèle plus léger sur ces 10 dimensions.