LSTM (Long Short-Term Memory)
Type spécifique de RNN capable d'apprendre des dépendances sur le long terme, très utile en NLP.
Les LSTM sont une variante de réseaux de neurones récurrents conçue pour mieux gérer les séquences (texte, audio, séries temporelles). Là où un RNN “classique” a tendance à oublier rapidement les informations anciennes, un LSTM est optimisé pour conserver des éléments pertinents sur de longues distances dans la séquence.
Comment ça fonctionne
Un LSTM maintient un état de cellule (une forme de mémoire) qui se propage d’un pas de temps au suivant. Des portes apprennent à contrôler le flux d’information :
- porte d’oubli : décide quoi supprimer de la mémoire,
- porte d’entrée : décide quoi ajouter,
- porte de sortie : décide quoi exposer comme représentation courante.
Ces mécanismes réduisent le problème du gradient qui disparaît, fréquent dans les RNN, ce qui facilite l’apprentissage de dépendances longues (par exemple, un sujet au début d’une phrase influençant un verbe à la fin).
À quoi ça sert
Les LSTM ont été largement utilisés pour :
- modélisation du langage (prédiction du mot suivant),
- classification de texte (sentiment, spam),
- reconnaissance de la parole,
- prévision de séries temporelles (demandes, capteurs).
Exemple concret
Pour analyser une phrase longue, un LSTM peut “se souvenir” d’une information introduite tôt (nom, contexte) afin d’interpréter correctement une ambiguïté plus tard. Aujourd’hui, ils sont souvent remplacés par des Transformers en NLP, mais restent utiles quand la simplicité ou des contraintes de calcul priment.