Définition
TF-IDF
Mesure statistique évaluant l'importance d'un mot dans un document par rapport à une collection de documents.
Publié le 4 mars 2026par ZoneIA
TF‑IDF (Term Frequency–Inverse Document Frequency) est une pondération classique en recherche d’information et en NLP pour transformer du texte en valeurs numériques. L’idée est simple : un terme est jugé important s’il apparaît souvent dans un document, mais pas partout dans le corpus.
Comment ça fonctionne
- TF (term frequency) mesure la fréquence d’un mot dans un document (souvent normalisée par la longueur du document).
- IDF (inverse document frequency) réduit le poids des mots fréquents dans de nombreux documents (ex. “le”, “et”). Typiquement :
idf(t) = log(N / (df(t) + 1)), oùNest le nombre de documents etdf(t)le nombre de documents contenant le terme. - TF‑IDF = TF × IDF : un mot obtient un score élevé s’il est fréquent dans un document, mais rare dans le reste du corpus.
À quoi ça sert
- Indexer et rechercher des documents (scoring de pertinence).
- Classifier ou regrouper des textes (SVM, régression logistique, clustering) via des vecteurs “sac de mots”.
- Extraire des mots-clés caractéristiques d’un document.
Exemple
Dans un corpus d’articles, “transformer” aura souvent un TF‑IDF élevé dans un article sur les LLM, alors que “données” peut être moins discriminant car présent partout.