TPU (Tensor Processing Unit)
Puce conçue spécifiquement par Google pour accélérer les calculs des réseaux de neurones (Machine Learning).
Une TPU est un processeur spécialisé (ASIC) optimisé pour exécuter très vite les opérations mathématiques au cœur du deep learning, notamment les multiplications de matrices et les convolutions. Contrairement à un CPU généraliste, elle vise un débit maximal sur des calculs massivement parallèles, avec une efficacité énergétique élevée.
Comment ça fonctionne
Les TPU intègrent des unités dédiées (souvent appelées matrix multiply units ou systolic arrays) capables d’enchaîner des produits matriciels à grande vitesse. Elles utilisent fréquemment des formats numériques plus compacts (par ex. bfloat16, int8 selon les générations) pour augmenter le throughput tout en conservant une précision suffisante pour l’entraînement ou l’inférence. Elles s’appuient aussi sur une mémoire et une interconnexion adaptées aux gros modèles.
À quoi ça sert
- Entraîner des réseaux de neurones plus rapidement (réduction du temps d’entraînement).
- Servir des modèles en production avec une latence et un coût par requête plus faibles.
- Optimiser la consommation énergétique à performance équivalente.
Exemples d’usage
Dans Google Cloud, les TPU sont utilisées via TensorFlow et souvent via JAX ou PyTorch (selon support), pour des tâches comme la vision, le NLP, la recommandation ou l’entraînement de grands modèles sur plusieurs puces (TPU Pods).