Stop Words (Mots vides)
Mots très courants (le, la, et, de) souvent filtrés lors du traitement du langage car ils apportent peu de sens direct.
Les stop words (ou mots vides) sont des termes très fréquents dans une langue (ex. « le », « de », « et », « à ») qui servent surtout à structurer les phrases. En analyse de texte, ils sont souvent considérés comme peu informatifs car ils n’aident pas toujours à distinguer le sujet principal d’un document.
Pourquoi les filtrer ?
Dans des approches classiques de NLP (recherche d’information, classification, clustering), enlever ces mots peut :
- réduire le bruit et la taille des données,
- accélérer le traitement,
- améliorer certaines mesures basées sur la fréquence (ex. TF-IDF), car les mots ultra fréquents dominent sinon les statistiques.
Comment ça marche ?
On utilise généralement une liste prédéfinie par langue (et parfois par domaine), puis on supprime ces mots lors de la tokenisation ou du nettoyage. Certaines pipelines préfèrent les conserver mais les pondérer faiblement plutôt que les retirer.
Limites et cas où les garder
Les stop words peuvent être cruciales pour le sens :
- négation (« ne…pas », « sans »),
- questions (« qui », « pourquoi »),
- analyse syntaxique ou génération de texte.
Avec des modèles modernes (BERT, GPT), on les conserve souvent, car le contexte complet améliore la compréhension.
Exemples d’usage
- Moteur de recherche : ignorer « de », « le » pour mieux indexer.
- Analyse de sentiments : conserver « pas » pour éviter d’inverser le sens.