Descente de Gradient
Algorithme d'optimisation utilisé pour minimiser la fonction de perte en ajustant les paramètres du modèle de manière itérative.
La descente de gradient est une méthode générale pour trouver des paramètres (poids d’un modèle, coefficients d’une régression, etc.) qui réduisent une erreur mesurée par une fonction de perte. Elle procède par petits ajustements successifs plutôt que de chercher directement la meilleure solution d’un coup.
Principe
À chaque itération, on calcule le gradient de la perte par rapport aux paramètres. Le gradient indique la direction dans laquelle la perte augmente le plus. On met alors à jour les paramètres dans la direction opposée pour faire diminuer la perte :
- nouveau paramètre = ancien paramètre − taux d’apprentissage × gradient
Le taux d’apprentissage (learning rate) contrôle la taille des pas : trop grand, l’optimisation peut diverger ; trop petit, l’apprentissage devient lent.
Variantes courantes
- Batch gradient descent : gradient calculé sur tout le jeu de données (stable mais coûteux).
- Stochastic (SGD) : sur un seul exemple (rapide mais plus bruité).
- Mini-batch : compromis le plus utilisé en deep learning.
À quoi ça sert
C’est le cœur de l’entraînement de nombreux modèles, notamment les réseaux de neurones, où le gradient est obtenu via la rétropropagation (backpropagation).