Apprentissage par Renforcement
Méthode où un agent apprend à prendre des décisions en effectuant des actions et en recevant des récompenses ou des pénalités.
L’apprentissage par renforcement (RL) consiste à entraîner un agent à choisir des actions dans un environnement afin de maximiser une récompense cumulée. Contrairement à l’apprentissage supervisé, il n’y a pas de “bonne réponse” donnée à l’avance : l’agent apprend par essais-erreurs, en observant les conséquences de ses décisions.
Comment ça fonctionne
À chaque étape, l’agent observe un état (par exemple la position d’un robot), sélectionne une action, puis reçoit une récompense (positive ou négative) et un nouvel état. L’agent ajuste alors sa politique (sa stratégie de décision) pour améliorer ses choix. Un défi central est l’équilibre entre exploration (tester de nouvelles actions) et exploitation (utiliser ce qui marche déjà).
À quoi ça sert
Cette approche est utile quand :
- les décisions s’enchaînent dans le temps,
- l’objectif est global (récompense à long terme),
- le système est difficile à modéliser explicitement.
Exemples concrets
- jeux (échecs, Go, jeux vidéo) via Q-learning ou méthodes “policy gradient” ;
- robotique (apprendre à marcher, saisir des objets) ;
- optimisation (gestion d’inventaire, allocation de ressources, contrôle de trafic) ;
- personnalisation (recommandations avec contraintes de long terme).