Définition

Stop Words (Mots vides)

Mots très courants (le, la, et, de) souvent filtrés lors du traitement du langage car ils apportent peu de sens direct.

Publié le 4 mars 2026par ZoneIA

Les stop words (ou mots vides) sont des termes très fréquents dans une langue (ex. « le », « de », « et », « à ») qui servent surtout à structurer les phrases. En analyse de texte, ils sont souvent considérés comme peu informatifs car ils n’aident pas toujours à distinguer le sujet principal d’un document.

Pourquoi les filtrer ?

Dans des approches classiques de NLP (recherche d’information, classification, clustering), enlever ces mots peut :

réduire le bruit et la taille des données,
accélérer le traitement,
améliorer certaines mesures basées sur la fréquence (ex. TF-IDF), car les mots ultra fréquents dominent sinon les statistiques.

Comment ça marche ?

On utilise généralement une liste prédéfinie par langue (et parfois par domaine), puis on supprime ces mots lors de la tokenisation ou du nettoyage. Certaines pipelines préfèrent les conserver mais les pondérer faiblement plutôt que les retirer.

Limites et cas où les garder

Les stop words peuvent être cruciales pour le sens :

négation (« ne…pas », « sans »),
questions (« qui », « pourquoi »),
analyse syntaxique ou génération de texte.
Avec des modèles modernes (BERT, GPT), on les conserve souvent, car le contexte complet améliore la compréhension.

Exemples d’usage

Moteur de recherche : ignorer « de », « le » pour mieux indexer.
Analyse de sentiments : conserver « pas » pour éviter d’inverser le sens.

Retour au glossaire

Continuez votre exploration

Outils IADécouvrir les outils

Prompts IAExplorer les prompts

Blog IALire nos articles