Définition

Taux d'Apprentissage (Learning Rate)

Taille du pas pris par le modèle lors de la mise à jour de ses poids à chaque itération (détermine la vitesse d'apprentissage).

Publié le 4 mars 2026par ZoneIA

Le taux d’apprentissage est un hyperparamètre qui contrôle l’amplitude des mises à jour appliquées aux paramètres d’un modèle pendant l’entraînement. Il influence directement la stabilité et la rapidité de la convergence.

Comment ça fonctionne

Lors de la descente de gradient (ou variantes comme Adam), on calcule le gradient de la fonction de perte, puis on met à jour les poids. Le taux d’apprentissage agit comme un coefficient multiplicateur sur ce gradient : plus il est grand, plus les poids bougent à chaque itération.

Pourquoi c’est critique

Trop élevé : le modèle peut “sauter” le minimum, osciller, voire diverger (perte qui explose).
Trop faible : l’entraînement devient très lent et peut rester coincé dans une zone sous-optimale.
Le bon réglage dépend du modèle, des données, du batch size et de l’optimiseur.

Usages courants

Scheduling : faire varier le taux au fil du temps (warmup, décroissance exponentielle, cosine decay).
Recherche d’hyperparamètres : grille, random search, ou méthodes bayésiennes.
Fine-tuning : souvent un taux plus faible que lors d’un entraînement from scratch pour éviter d’écraser des représentations déjà apprises.

Exemple pratique : en fine-tuning de modèles de langage, on utilise fréquemment des taux entre 1e-5 et 5e-5 (selon le setup).

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Définition

Taux d'Apprentissage (Learning Rate)

Taille du pas pris par le modèle lors de la mise à jour de ses poids à chaque itération (détermine la vitesse d'apprentissage).

Publié le 4 mars 2026par ZoneIA

Comment ça fonctionne

Pourquoi c’est critique

Trop élevé : le modèle peut “sauter” le minimum, osciller, voire diverger (perte qui explose).
Trop faible : l’entraînement devient très lent et peut rester coincé dans une zone sous-optimale.
Le bon réglage dépend du modèle, des données, du batch size et de l’optimiseur.

Usages courants

Scheduling : faire varier le taux au fil du temps (warmup, décroissance exponentielle, cosine decay).
Recherche d’hyperparamètres : grille, random search, ou méthodes bayésiennes.
Fine-tuning : souvent un taux plus faible que lors d’un entraînement from scratch pour éviter d’écraser des représentations déjà apprises.

Exemple pratique : en fine-tuning de modèles de langage, on utilise fréquemment des taux entre 1e-5 et 5e-5 (selon le setup).

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles

Taux d'Apprentissage (Learning Rate)

Comment ça fonctionne

Pourquoi c’est critique

Usages courants

Continuez votre exploration

Autres définitions

Taux d'Apprentissage (Learning Rate)

Comment ça fonctionne

Pourquoi c’est critique

Usages courants

Continuez votre exploration

Autres définitions