Inception Labs lanza Mercury 2: el LLM de razonamiento más rápido del mundo alcanza más de 1.000 tokens por segundo mediante arquitectura de difusión
Inception Labs ha lanzado Mercury 2, un modelo de lenguaje de razonamiento basado en difusión que genera más de 1.000 tokens por segundo en GPUs NVIDIA Blackwell — más de cinco veces más rápido que los principales competidores autorregresivos. A diferencia de la decodificación secuencial tradicional, Mercury 2 utiliza refinamiento paralelo de tokens, permitiendo calidad de nivel de razonamiento dentro de presupuestos de latencia en tiempo real a un coste de $0.25 por millón de tokens de entrada.


