NPU (Neural Processing Unit)
Puce spécialisée embarquée (souvent dans les smartphones) pour exécuter des tâches d'IA directement sur l'appareil.
Une NPU est un processeur conçu pour accélérer les calculs typiques de l’IA, en particulier les réseaux de neurones. Contrairement à un CPU (généraliste) ou à un GPU (parallélisme large), elle optimise matériellement des opérations comme les multiplications de matrices, les convolutions et les mécanismes de quantification. L’objectif est d’exécuter l’inférence (faire tourner un modèle entraîné) rapidement, avec une faible consommation d’énergie.
Comment ça fonctionne
Une NPU embarque souvent des unités MAC (Multiply-Accumulate) en grand nombre, une hiérarchie mémoire adaptée et des chemins de données optimisés pour les tenseurs. Elle s’appuie sur des formats réduits (INT8, FP16) et des compilateurs/SDK (par ex. NNAPI, Core ML, ONNX Runtime, TensorRT selon l’écosystème) pour convertir un modèle en graphes et kernels compatibles.
À quoi ça sert
- IA “on-device” : moins de latence, fonctionne hors ligne, meilleure confidentialité.
- Efficacité énergétique : utile pour les smartphones, objets connectés, PC “AI”.
- Décharge du CPU/GPU : libère des ressources pour le reste de l’application.
Exemples d’usage
Reconnaissance faciale, amélioration photo/vidéo en temps réel, traduction locale, transcription, détection d’objets, filtres AR, et assistants vocaux sans connexion permanente.