Définition
Nettoyage de données
Processus de détection et de correction (ou suppression) des erreurs ou incohérences dans un jeu de données.
Publié le 4 mars 2026par ZoneIA
Le nettoyage de données consiste à préparer un jeu de données pour qu’il soit fiable et exploitable. Un dataset brut contient souvent des valeurs manquantes, des doublons, des formats hétérogènes (dates, unités), des fautes de saisie ou des anomalies. Sans correction, ces problèmes faussent les analyses et dégradent fortement les performances d’un modèle de machine learning.
Comment ça fonctionne
Le processus combine des règles métiers et des méthodes statistiques :
- Profilage : mesurer la qualité (taux de null, distributions, outliers).
- Standardisation : uniformiser les types et formats (ex.
YYYY-MM-DD, encodage texte). - Déduplication : identifier des enregistrements identiques ou quasi identiques.
- Traitement des valeurs manquantes : suppression, imputation (moyenne/médiane), ou modèle dédié.
- Gestion des outliers : correction, capping, ou exclusion selon le contexte.
À quoi ça sert
Il améliore la qualité des indicateurs, réduit le bruit, évite des biais (ex. catégories mal orthographiées) et rend les pipelines de données plus robustes et reproductibles.
Exemples concrets
- Fusionner “Paris”, “paris”, “PARIS” en une même catégorie.
- Convertir des montants en une devise/unité unique.
- Supprimer des logs dupliqués lors d’un suivi d’événements.
- Imputer des valeurs manquantes de température via interpolation temporelle.