Inception Labs lance Mercury 2 : le LLM de raisonnement le plus rapide au monde atteint plus de 1 000 tokens par seconde grâce à une architecture de diffusion
Inception Labs a publié Mercury 2, un modèle de langage de raisonnement basé sur la diffusion qui génère plus de 1 000 tokens par seconde sur les GPU NVIDIA Blackwell — plus de cinq fois plus rapide que les principaux concurrents autorégressifs. Contrairement au décodage séquentiel traditionnel, Mercury 2 utilise un affinage parallèle des tokens, offrant une qualité de niveau raisonnement dans des budgets de latence temps réel pour un coût de $0.25 par million de tokens d'entrée.
