Taux d'Apprentissage (Learning Rate)
Taille du pas pris par le modèle lors de la mise à jour de ses poids à chaque itération (détermine la vitesse d'apprentissage).
Le taux d’apprentissage est un hyperparamètre qui contrôle l’amplitude des mises à jour appliquées aux paramètres d’un modèle pendant l’entraînement. Il influence directement la stabilité et la rapidité de la convergence.
Comment ça fonctionne
Lors de la descente de gradient (ou variantes comme Adam), on calcule le gradient de la fonction de perte, puis on met à jour les poids. Le taux d’apprentissage agit comme un coefficient multiplicateur sur ce gradient : plus il est grand, plus les poids bougent à chaque itération.
Pourquoi c’est critique
- Trop élevé : le modèle peut “sauter” le minimum, osciller, voire diverger (perte qui explose).
- Trop faible : l’entraînement devient très lent et peut rester coincé dans une zone sous-optimale.
Le bon réglage dépend du modèle, des données, du batch size et de l’optimiseur.
Usages courants
- Scheduling : faire varier le taux au fil du temps (warmup, décroissance exponentielle, cosine decay).
- Recherche d’hyperparamètres : grille, random search, ou méthodes bayésiennes.
- Fine-tuning : souvent un taux plus faible que lors d’un entraînement from scratch pour éviter d’écraser des représentations déjà apprises.
Exemple pratique : en fine-tuning de modèles de langage, on utilise fréquemment des taux entre 1e-5 et 5e-5 (selon le setup).