Inception Labs выпускает Mercury 2: самое быстрое в мире LLM для рассуждений достигает более 1000 токенов в секунду благодаря диффузионной архитектуре
Inception Labs выпустила Mercury 2, диффузионную модель языка для рассуждений, которая генерирует более 1000 токенов в секунду на GPU NVIDIA Blackwell — более чем в пять раз быстрее ведущих авторегрессионных конкурентов. В отличие от традиционного последовательного декодирования, Mercury 2 использует параллельную доработку токенов, обеспечивая качество уровня рассуждений в рамках бюджетов латентности в реальном времени по стоимости $0.25 за миллион входных токенов.


