Q-Learning
Algorithme spécifique d'apprentissage par renforcement visant à apprendre la valeur d'une action dans un état donné.
Le Q-Learning est une méthode d’apprentissage par renforcement dite model-free : l’agent n’a pas besoin de connaître à l’avance les règles de transition de l’environnement. Il apprend, par essai-erreur, une fonction Q(s, a) qui estime la récompense cumulée attendue lorsqu’on choisit l’action a dans l’état s, puis qu’on continue à agir au mieux.
Comment ça fonctionne
À chaque interaction, l’agent observe un état s, choisit une action a, reçoit une récompense r et arrive dans un nouvel état s'. Il met alors à jour sa table (ou son approximateur) via la règle :
Q(s,a) ← Q(s,a) + α [ r + γ max_a' Q(s',a') − Q(s,a) ]
- α : taux d’apprentissage (vitesse d’adaptation)
- γ : facteur d’actualisation (importance du futur)
Le termemax_a'rend l’algorithme off-policy : on apprend la meilleure politique même si on explore.
À quoi ça sert
Il est utile pour apprendre des stratégies dans des problèmes séquentiels : navigation, contrôle, allocation de ressources, jeux.
Exemple concret
Dans un labyrinthe, Q(s, a) apprend progressivement quelles actions (haut/bas/gauche/droite) mènent le plus sûrement à la sortie, malgré les détours et pénalités.