Définition

Q-Learning

Algorithme spécifique d'apprentissage par renforcement visant à apprendre la valeur d'une action dans un état donné.

Publié le 4 mars 2026par ZoneIA

Le Q-Learning est une méthode d’apprentissage par renforcement dite model-free : l’agent n’a pas besoin de connaître à l’avance les règles de transition de l’environnement. Il apprend, par essai-erreur, une fonction Q(s, a) qui estime la récompense cumulée attendue lorsqu’on choisit l’action a dans l’état s, puis qu’on continue à agir au mieux.

Comment ça fonctionne

À chaque interaction, l’agent observe un état s, choisit une action a, reçoit une récompense r et arrive dans un nouvel état s'. Il met alors à jour sa table (ou son approximateur) via la règle :

Q(s,a) ← Q(s,a) + α [ r + γ max_a' Q(s',a') − Q(s,a) ]

α : taux d’apprentissage (vitesse d’adaptation)
γ : facteur d’actualisation (importance du futur)
Le terme max_a' rend l’algorithme off-policy : on apprend la meilleure politique même si on explore.

À quoi ça sert

Il est utile pour apprendre des stratégies dans des problèmes séquentiels : navigation, contrôle, allocation de ressources, jeux.

Exemple concret

Dans un labyrinthe, Q(s, a) apprend progressivement quelles actions (haut/bas/gauche/droite) mènent le plus sûrement à la sortie, malgré les détours et pénalités.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Définition

Q-Learning

Algorithme spécifique d'apprentissage par renforcement visant à apprendre la valeur d'une action dans un état donné.

Publié le 4 mars 2026par ZoneIA

Comment ça fonctionne

Q(s,a) ← Q(s,a) + α [ r + γ max_a' Q(s',a') − Q(s,a) ]

α : taux d’apprentissage (vitesse d’adaptation)
γ : facteur d’actualisation (importance du futur)
Le terme max_a' rend l’algorithme off-policy : on apprend la meilleure politique même si on explore.

À quoi ça sert

Il est utile pour apprendre des stratégies dans des problèmes séquentiels : navigation, contrôle, allocation de ressources, jeux.

Exemple concret

Dans un labyrinthe, Q(s, a) apprend progressivement quelles actions (haut/bas/gauche/droite) mènent le plus sûrement à la sortie, malgré les détours et pénalités.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Q-Learning

Comment ça fonctionne

À quoi ça sert

Exemple concret

Continuez votre exploration

Autres définitions

Q-Learning

Comment ça fonctionne

À quoi ça sert

Exemple concret

Continuez votre exploration

Autres définitions