Inception Labs выпускает Mercury 2: самое быстрое в мире LLM для рассуждений достигает более 1000 токенов в секунду благодаря диффузионной архитектуре

Inception Labs побила рекорды скорости с Mercury 2: первой моделью рассуждения на основе диффузии (Diffusion-Based Reasoning Model)

В переломный момент для генеративного ИИ (Generative AI) компания Inception Labs официально представила Mercury 2 — революционную языковую модель, которая в корне меняет представление о том, как машины генерируют текст. Отказавшись от стандартной для индустрии авторегрессионной архитектуры (Autoregressive architecture) в пользу параллельной обработки на основе диффузии (Diffusion-based parallel processing), Mercury 2 достигает ошеломляющей пропускной способности — более 1 000 токенов в секунду на графических процессорах (GPU) NVIDIA Blackwell. Этот релиз знаменует собой первый случай, когда модель, способная к рассуждению, преодолела «барьер задержки» (Latency wall), который долгое время сдерживал применение ИИ в реальном времени. Решение работает в пять-десять раз быстрее ближайших конкурентов, при этом значительно снижая текущие ценовые стандарты.

Конец авторегрессионного узкого места

В течение многих лет в сфере больших языковых моделей (Large Language Model, LLM) доминировали авторегрессионные трансформеры. Модели вроде GPT-4 и Claude генерируют текст последовательно, предсказывая по одному токену (примерно одно слово или часть слова) за раз. Несмотря на эффективность, этот серийный процесс создает неизбежное ограничение скорости: модель не может сгенерировать конец предложения, пока не закончит начало. По мере роста моделей и усложнения задач на рассуждение этот подход «токен за токеном» стал узким местом для приложений, чувствительных к задержкам.

Mercury 2 разрушает эту парадигму, используя диффузионную архитектуру. Вместо последовательного «печатания» ответа, Mercury 2 действует скорее как скульптор, извлекающий статую из глыбы мрамора. Она начинает с зашумленного, грубого черновика всего ответа и уточняет все токены одновременно в ходе параллельных шагов. Это позволяет модели «видеть» будущее предложения, исправляя его начало, что обеспечивает глобальную связность и самокоррекцию, которых последовательным моделям трудно достичь без дорогостоящего возврата назад.

По заявлению Inception Labs, этот архитектурный сдвиг позволяет Mercury 2 генерировать сложные результаты рассуждений со сквозной задержкой всего в 1,7 секунды — лишь малая часть времени, требуемого традиционным моделям для аналогичных задач.

Непревзойденная производительность и экономика

Показатели производительности, опубликованные Inception Labs, описывают модель, занимающую новую категорию эффективности. Работая на оборудовании NVIDIA Blackwell, Mercury 2 достигает пропускной способности примерно в 1 009 токенов в секунду (TPS). Для сравнения: ведущие авторегрессионные модели, оптимизированные по скорости, обычно достигают пика между 70 и 100 TPS.

Важно отметить, что эта скорость не идет в ущерб способности к рассуждению. В бенчмарке AIME 2025, проверяющем продвинутое математическое мышление, Mercury 2 набрала 91,1 балла, значительно превзойдя небольшие модели, ориентированные на скорость, и напрямую конкурируя с гораздо более крупными передовыми моделями.

Inception Labs также позиционирует Mercury 2 как ценового дизраптора. Стоимость модели составляет $0,25 за миллион входных токенов и $0,75 за миллион выходных токенов. Эта ценовая стратегия существенно подрывает позиции основных конкурентов, делая высокоскоростной ИИ уровня рассуждения доступным для масштабных корпоративных рабочих нагрузок.

Сравнительный анализ: Mercury 2 против остальных

Чтобы понять масштаб этого скачка, необходимо сравнить Mercury 2 с нынешним поколением «быстрых» моделей, таких как Claude 4.5 Haiku и GPT-5 Mini. Данные свидетельствуют о том, что Inception Labs добилась улучшения пропускной способности на порядок.

Таблица 1: Сравнение производительности и стоимости

Название модели	Архитектура	Пропускная способность (ток/сек)	Входная стоимость (за 1 млн)	Выходная стоимость (за 1 млн)	Бенчмарк AIME
Mercury 2	Диффузионная	~1,009	$0.25	$0.75	91.1
Claude 4.5 Haiku	Авторегрессионная	~89	$1.00	$5.00	39.0
GPT-5 Mini	Авторегрессионная	~71	N/A	N/A	27.0
Gemini 3 Flash	Авторегрессионная	~100	$0.50	$3.00	N/A

Примечание: Баллы бенчмарков и показатели скорости основаны на данных, опубликованных Inception Labs, и независимых ранних тестах, цитируемых в технических отчетах.

Рассуждение в реальном времени: новые горизонты для агентов

Значение Mercury 2 выходит за рамки сухих цифр бенчмарков. Низкая задержка модели призвана революционизировать развертывание ИИ-агентов. В сложных рабочих процессах, где ИИ должен планировать, использовать инструменты и итерировать, традиционные модели часто вносят секундные задержки на каждом шагу, что приводит к медлительности интерфейса. Возможности Mercury 2 по обработке данных менее чем за секунду позволяют создавать «плотные циклы», в которых агенты могут думать, действовать и исправлять себя почти мгновенно.

Это особенно актуально для голосового ИИ, ассистентов по написанию кода и поиска в реальном времени, где пользователи ожидают почти мгновенной реакции. Например, ассистент кодинга на базе Mercury 2 мог бы провести рефакторинг целого файла кода за то время, которое требуется стандартной модели для написания первых нескольких строк.

Доступность в индустрии

Inception Labs сделала Mercury 2 доступной немедленно через API, совместимый с OpenAI, что позволяет разработчикам интегрировать её в существующую инфраструктуру с минимальными усилиями. Модель поддерживает окно контекста (Context window) 128k, вызов инструментов (Tool calling) и структурированные выходные данные JSON, гарантируя соответствие практическим требованиям современных производственных сред.

Пока индустрия ИИ продолжает искать «следующую большую вещь» за пределами Трансформеров, Mercury 2 дает веский аргумент в пользу того, что будущее может лежать в плоскости диффузии. Решив проблему узкого места скорости вывода, Inception Labs не просто выпустила более быструю модель, но и потенциально обнулила базовые ожидания от того, чего может достичь ИИ в реальном времени.