Biais de sélection
Erreur introduite lorsqu'un jeu de données ne représente pas correctement la réalité qu'il est censé modéliser.
Le biais de sélection apparaît quand les données utilisées pour analyser, entraîner ou évaluer un modèle proviennent d’un sous-ensemble non représentatif de la population réelle. Le modèle apprend alors des régularités « locales » qui ne se généralisent pas. Ce biais peut conduire à des conclusions trompeuses, même si les métriques semblent bonnes sur l’échantillon disponible.
Comment il se produit
Il survient souvent lors de la collecte ou du filtrage des données :
- Données manquantes non aléatoires (certaines catégories répondent moins).
- Échantillonnage de convenance (on utilise ce qui est facile à obtenir).
- Effet de plateforme (les utilisateurs d’une appli ne reflètent pas la population).
- Survivorship bias (on n’observe que les « survivants » d’un processus).
Impacts en IA
Un modèle peut être performant en test interne mais échouer en production, car la distribution des données change (distribution shift). Le biais de sélection peut aussi amplifier des inégalités si certaines classes sont sous-représentées.
Exemples concrets
- Un modèle de crédit entraîné surtout sur des clients existants sous-estime le risque pour de nouveaux profils.
- Un classifieur d’images médicales appris sur un seul hôpital généralise mal ailleurs.
- Un modèle RH entraîné sur des candidatures historiques reproduit les filtres passés.
Pistes de réduction
Audit de représentativité, échantillonnage stratifié, collecte ciblée, pondération, et validation sur des jeux externes et récents.