Word2vec
Groupe de modèles utilisés pour produire des word embeddings, basés sur des réseaux de neurones simples.
Word2vec désigne une famille de méthodes qui transforment des mots en vecteurs numériques (embeddings). L’idée clé est que des mots apparaissant dans des contextes similaires ont des significations proches. Une fois appris, l’espace vectoriel capture des relations sémantiques et syntaxiques : des mots proches en sens se retrouvent proches en distance.
Comment ça fonctionne
L’apprentissage se fait sur un grand corpus de texte, avec un réseau de neurones volontairement simple. Deux variantes principales existent :
- CBOW (Continuous Bag of Words) : prédit un mot à partir des mots autour (le contexte).
- Skip-gram : prédit les mots du contexte à partir du mot central.
Pendant l’entraînement, le modèle ajuste les poids pour mieux prédire ces cooccurrences. Les vecteurs des mots sont ensuite extraits des poids appris. Pour accélérer le calcul, on utilise souvent des astuces comme negative sampling ou hierarchical softmax.
À quoi ça sert
Les embeddings issus de Word2vec servent d’entrées à de nombreux modèles : classification de texte, recherche sémantique, clustering, recommandation, détection de similarités, etc. Ils permettent aussi des opérations vectorielles révélant des analogies (ex. relations de type “roi – homme + femme ≈ reine”, avec prudence).
Limites
Un embedding Word2vec est statique : un même mot a un seul vecteur, même s’il a plusieurs sens selon le contexte. Pour gérer la polysémie, on utilise souvent des modèles contextualisés (ex. BERT).