ReLU (Rectified Linear Unit)
La fonction d'activation la plus utilisée dans les réseaux de neurones profonds, qui remplace les valeurs négatives par zéro.
La ReLU est une fonction d’activation qui introduit de la non‑linéarité dans un réseau de neurones. Sans activation, empiler des couches reviendrait essentiellement à appliquer une transformation linéaire, incapable de modéliser des relations complexes. Son principe est simple : pour une entrée (x), la sortie vaut (\max(0, x)). Les valeurs négatives sont annulées, les positives sont conservées.
Comment ça fonctionne
Pendant la propagation avant, la ReLU “coupe” les activations négatives. Pendant la rétropropagation, son gradient vaut 0 pour (x < 0) et 1 pour (x > 0) (on définit souvent 0 ou 1 en (x=0) selon les bibliothèques). Cela rend l’optimisation efficace, car le calcul est trivial et les gradients restent stables côté positif.
Pourquoi elle est si utilisée
- Entraînement plus rapide : calcul simple, convergence souvent meilleure que sigmoid/tanh.
- Moins de gradients qui disparaissent : sur la zone (x>0), le gradient ne s’écrase pas.
Limites et variantes
Elle peut entraîner le problème des “neurones morts” : si un neurone reçoit surtout des entrées négatives, son gradient devient nul et il n’apprend plus. Des variantes comme Leaky ReLU, PReLU ou ELU atténuent ce risque.
Exemples d’usage
Couramment utilisée dans les couches cachées de CNN (vision) et de MLP (tabulaire), notamment avec des initialiseurs adaptés (ex. He initialization).