Confidentialité des Données
Gestion adéquate des données personnelles pour empêcher les fuites lors de l'entraînement des IA.
La confidentialité des données consiste à protéger les informations sensibles (données personnelles, secrets commerciaux, dossiers médicaux) tout au long du cycle de vie d’un système d’IA : collecte, stockage, entraînement, inférence et partage. L’objectif est d’éviter qu’un modèle, une API ou une base de données ne permette de reconstituer des informations sur des individus.
Comment les fuites peuvent arriver
Même sans accès direct aux données d’origine, un modèle peut « mémoriser » des exemples. Cela peut mener à des attaques d’extraction (récupération de fragments de données), d’inférence d’appartenance (déterminer si un individu était dans le jeu d’entraînement) ou à des fuites via les logs, prompts, jeux de tests ou sauvegardes.
Bonnes pratiques courantes
Les approches combinent mesures techniques et organisationnelles : minimisation des données collectées, pseudonymisation/anonymisation, contrôle d’accès, chiffrement au repos et en transit, isolation des environnements, rétention limitée, et audits. Côté IA, on utilise aussi la confidentialité différentielle, l’entraînement fédéré, ou des garde-fous contre l’« oversharing » (filtrage PII, redaction, politiques de journalisation).
Exemples d’usage
- Chatbot support : suppression des identifiants et masquage automatique avant indexation RAG.
- Entraînement interne : jeux de données pseudonymisés + tests d’extraction de mémorisation.
- API LLM : désactivation des logs sensibles et règles de conservation strictes.