Modèle de Diffusion
Modèle génératif qui apprend à créer des images en détruisant d'abord les données avec du bruit, puis en inversant le processus.
Un modèle de diffusion est une famille de modèles génératifs utilisée surtout pour produire des images (mais aussi audio, vidéo ou 3D) à partir de bruit aléatoire. L’idée clé est d’apprendre un processus de débruitage progressif : au lieu de générer directement une image, le modèle reconstruit petit à petit une image plausible en retirant du bruit.
Comment ça fonctionne
On distingue généralement deux phases :
- Diffusion avant (forward) : on ajoute du bruit à des images réelles sur plusieurs étapes jusqu’à obtenir presque du bruit pur. Cette phase est connue et ne nécessite pas d’apprentissage complexe.
- Diffusion inverse (reverse) : un réseau neuronal apprend à prédire et retirer le bruit à chaque étape. En répétant l’opération, on passe du bruit à une image nette.
Souvent, le modèle est conditionné (par un texte, une image, un masque). Des architectures comme les U-Net et des mécanismes d’attention sont courants.
À quoi ça sert
Ces modèles excellent pour générer des images détaillées et contrôlables : text-to-image, retouche (inpainting), variation d’images, super-résolution, ou création de styles.
Exemple concret
Pour « un chat astronaute en style aquarelle », le système part d’un bruit aléatoire puis, guidé par l’embedding du texte, débruite itérativement jusqu’à obtenir une image correspondant à la description.