Définition

Biais de sélection

Erreur introduite lorsqu'un jeu de données ne représente pas correctement la réalité qu'il est censé modéliser.

Publié le 4 mars 2026par ZoneIA

Le biais de sélection apparaît quand les données utilisées pour analyser, entraîner ou évaluer un modèle proviennent d’un sous-ensemble non représentatif de la population réelle. Le modèle apprend alors des régularités « locales » qui ne se généralisent pas. Ce biais peut conduire à des conclusions trompeuses, même si les métriques semblent bonnes sur l’échantillon disponible.

Comment il se produit

Il survient souvent lors de la collecte ou du filtrage des données :

Données manquantes non aléatoires (certaines catégories répondent moins).
Échantillonnage de convenance (on utilise ce qui est facile à obtenir).
Effet de plateforme (les utilisateurs d’une appli ne reflètent pas la population).
Survivorship bias (on n’observe que les « survivants » d’un processus).

Impacts en IA

Un modèle peut être performant en test interne mais échouer en production, car la distribution des données change (distribution shift). Le biais de sélection peut aussi amplifier des inégalités si certaines classes sont sous-représentées.

Exemples concrets

Un modèle de crédit entraîné surtout sur des clients existants sous-estime le risque pour de nouveaux profils.
Un classifieur d’images médicales appris sur un seul hôpital généralise mal ailleurs.
Un modèle RH entraîné sur des candidatures historiques reproduit les filtres passés.

Pistes de réduction

Audit de représentativité, échantillonnage stratifié, collecte ciblée, pondération, et validation sur des jeux externes et récents.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles