Word Embedding (Plongement lexical)
Représentation mathématique (vectorielle) des mots permettant à l'IA de saisir leurs relations sémantiques.
Un word embedding associe à chaque mot un vecteur de nombres (souvent quelques centaines de dimensions). L’idée est que des mots utilisés dans des contextes similaires auront des vecteurs proches. On peut alors mesurer des relations sémantiques avec des distances ou des similarités (par ex. cosinus), plutôt qu’avec des règles écrites à la main.
Comment c’est appris
Ces vecteurs sont généralement appris automatiquement sur de grands corpus. Des méthodes comme Word2Vec (CBOW, Skip-gram) ou GloVe optimisent une tâche simple : prédire un mot à partir de son contexte, ou l’inverse. Pendant l’entraînement, le modèle ajuste les vecteurs pour que les cooccurrences observées soient “bien expliquées”. Résultat : la géométrie de l’espace encode des régularités linguistiques.
À quoi ça sert
Les embeddings servent de base à de nombreux systèmes de NLP : recherche sémantique, classification de texte, regroupement de documents, détection de similarité, ou comme entrée de modèles plus complexes. Ils permettent aussi des analogies (ex. relations de type roi – homme + femme ≈ reine, selon les données).
Limites et évolutions
Ils sont souvent statique par mot (un seul vecteur pour “banque”, quel que soit le sens). Les modèles modernes (BERT et dérivés) produisent plutôt des embeddings contextualisés, dépendant de la phrase.