
В переломный момент для генеративного ИИ (Generative AI) компания Inception Labs официально представила Mercury 2 — революционную языковую модель, которая в корне меняет представление о том, как машины генерируют текст. Отказавшись от стандартной для индустрии авторегрессионной архитектуры (Autoregressive architecture) в пользу параллельной обработки на основе диффузии (Diffusion-based parallel processing), Mercury 2 достигает ошеломляющей пропускной способности — более 1 000 токенов в секунду на графических процессорах (GPU) NVIDIA Blackwell. Этот релиз знаменует собой первый случай, когда модель, способная к рассуждению, преодолела «барьер задержки» (Latency wall), который долгое время сдерживал применение ИИ в реальном времени. Решение работает в пять-десять раз быстрее ближайших конкурентов, при этом значительно снижая текущие ценовые стандарты.
В течение многих лет в сфере больших языковых моделей (Large Language Model, LLM) доминировали авторегрессионные трансформеры. Модели вроде GPT-4 и Claude генерируют текст последовательно, предсказывая по одному токену (примерно одно слово или часть слова) за раз. Несмотря на эффективность, этот серийный процесс создает неизбежное ограничение скорости: модель не может сгенерировать конец предложения, пока не закончит начало. По мере роста моделей и усложнения задач на рассуждение этот подход «токен за токеном» стал узким местом для приложений, чувствительных к задержкам.
Mercury 2 разрушает эту парадигму, используя диффузионную архитектуру. Вместо последовательного «печатания» ответа, Mercury 2 действует скорее как скульптор, извлекающий статую из глыбы мрамора. Она начинает с зашумленного, грубого черновика всего ответа и уточняет все токены одновременно в ходе параллельных шагов. Это позволяет модели «видеть» будущее предложения, исправляя его начало, что обеспечивает глобальную связность и самокоррекцию, которых последовательным моделям трудно достичь без дорогостоящего возврата назад.
По заявлению Inception Labs, этот архитектурный сдвиг позволяет Mercury 2 генерировать сложные результаты рассуждений со сквозной задержкой всего в 1,7 секунды — лишь малая часть времени, требуемого традиционным моделям для аналогичных задач.
Показатели производительности, опубликованные Inception Labs, описывают модель, занимающую новую категорию эффективности. Работая на оборудовании NVIDIA Blackwell, Mercury 2 достигает пропускной способности примерно в 1 009 токенов в секунду (TPS). Для сравнения: ведущие авторегрессионные модели, оптимизированные по скорости, обычно достигают пика между 70 и 100 TPS.
Важно отметить, что эта скорость не идет в ущерб способности к рассуждению. В бенчмарке AIME 2025, проверяющем продвинутое математическое мышление, Mercury 2 набрала 91,1 балла, значительно превзойдя небольшие модели, ориентированные на скорость, и напрямую конкурируя с гораздо более крупными передовыми моделями.
Inception Labs также позиционирует Mercury 2 как ценового дизраптора. Стоимость модели составляет $0,25 за миллион входных токенов и $0,75 за миллион выходных токенов. Эта ценовая стратегия существенно подрывает позиции основных конкурентов, делая высокоскоростной ИИ уровня рассуждения доступным для масштабных корпоративных рабочих нагрузок.
Чтобы понять масштаб этого скачка, необходимо сравнить Mercury 2 с нынешним поколением «быстрых» моделей, таких как Claude 4.5 Haiku и GPT-5 Mini. Данные свидетельствуют о том, что Inception Labs добилась улучшения пропускной способности на порядок.
Таблица 1: Сравнение производительности и стоимости
| Название модели | Архитектура | Пропускная способность (ток/сек) | Входная стоимость (за 1 млн) | Выходная стоимость (за 1 млн) | Бенчмарк AIME |
|---|---|---|---|---|---|
| Mercury 2 | Диффузионная | ~1,009 | $0.25 | $0.75 | 91.1 |
| Claude 4.5 Haiku | Авторегрессионная | ~89 | $1.00 | $5.00 | 39.0 |
| GPT-5 Mini | Авторегрессионная | ~71 | N/A | N/A | 27.0 |
| Gemini 3 Flash | Авторегрессионная | ~100 | $0.50 | $3.00 | N/A |
Примечание: Баллы бенчмарков и показатели скорости основаны на данных, опубликованных Inception Labs, и независимых ранних тестах, цитируемых в технических отчетах.
Значение Mercury 2 выходит за рамки сухих цифр бенчмарков. Низкая задержка модели призвана революционизировать развертывание ИИ-агентов. В сложных рабочих процессах, где ИИ должен планировать, использовать инструменты и итерировать, традиционные модели часто вносят секундные задержки на каждом шагу, что приводит к медлительности интерфейса. Возможности Mercury 2 по обработке данных менее чем за секунду позволяют создавать «плотные циклы», в которых агенты могут думать, действовать и исправлять себя почти мгновенно.
Это особенно актуально для голосового ИИ, ассистентов по написанию кода и поиска в реальном времени, где пользователи ожидают почти мгновенной реакции. Например, ассистент кодинга на базе Mercury 2 мог бы провести рефакторинг целого файла кода за то время, которое требуется стандартной модели для написания первых нескольких строк.
Inception Labs сделала Mercury 2 доступной немедленно через API, совместимый с OpenAI, что позволяет разработчикам интегрировать её в существующую инфраструктуру с минимальными усилиями. Модель поддерживает окно контекста (Context window) 128k, вызов инструментов (Tool calling) и структурированные выходные данные JSON, гарантируя соответствие практическим требованиям современных производственных сред.
Пока индустрия ИИ продолжает искать «следующую большую вещь» за пределами Трансформеров, Mercury 2 дает веский аргумент в пользу того, что будущее может лежать в плоскости диффузии. Решив проблему узкого места скорости вывода, Inception Labs не просто выпустила более быструю модель, но и потенциально обнулила базовые ожидания от того, чего может достичь ИИ в реальном времени.