Inception Labs lança Mercury 2: o LLM de raciocínio mais rápido do mundo atinge mais de 1.000 tokens por segundo via arquitetura de difusão

Inception Labs Quebra Limites de Velocidade com o Mercury 2: O Primeiro Modelo de Raciocínio Baseado em Difusão (Diffusion-Based Reasoning Model)

Em um momento decisivo para a IA generativa (Generative AI), a Inception Labs lançou oficialmente o Mercury 2, um modelo de linguagem inovador que reinventa fundamentalmente a forma como as máquinas geram texto. Ao abandonar a arquitetura autorregressiva (autoregressive) padrão da indústria em favor do processamento paralelo baseado em difusão, o Mercury 2 atinge uma vazão (throughput) impressionante de mais de 1.000 tokens por segundo em GPUs NVIDIA Blackwell. Este lançamento marca a primeira vez que um modelo capaz de raciocínio quebra a "parede de latência" que há muito restringe as aplicações de IA em tempo real, oferecendo uma solução que é cinco a dez vezes mais rápida que seus concorrentes mais próximos, reduzindo significativamente os modelos de preços atuais.

O Fim do Gargalo Autorregressivo

Durante anos, o cenário dos grandes modelos de linguagem (Large Language Models - LLMs) foi dominado por transformadores (transformers) autorregressivos. Modelos como GPT-4 e Claude geram texto sequencialmente, prevendo um token (aproximadamente uma palavra ou parte de uma palavra) por vez. Embora eficaz, esse processo serial cria um limite de velocidade inevitável: o modelo não pode gerar o final de uma frase antes de terminar o início. À medida que os modelos cresceram e as tarefas de raciocínio tornaram-se mais complexas, essa abordagem "token por token" tornou-se um gargalo para aplicações sensíveis à latência.

Mercury 2 desmantela esse paradigma ao utilizar uma arquitetura de difusão. Em vez de "digitar" uma resposta sequencialmente, o Mercury 2 age mais como um escultor revelando uma estátua de um bloco de mármore. Ele começa com um rascunho ruidoso e bruto de toda a resposta e refina todos os tokens simultaneamente em etapas paralelas. Isso permite que o modelo "veja" o futuro da frase enquanto corrige o início, permitindo coerência global e autocorreção que modelos sequenciais lutam para alcançar sem retrocessos dispendiosos.

De acordo com a Inception Labs, essa mudança arquitetônica permite que o Mercury 2 gere saídas de raciocínio complexas com uma latência de ponta a ponta de apenas 1,7 segundos, uma fração do tempo exigido por modelos tradicionais para tarefas semelhantes.

Desempenho e Economia Inigualáveis

As métricas de desempenho divulgadas pela Inception Labs retratam um modelo que ocupa uma nova categoria de eficiência. Operando em hardware NVIDIA Blackwell, o Mercury 2 atinge uma vazão de aproximadamente 1.009 tokens por segundo (TPS). Para contextualizar, os principais modelos autorregressivos otimizados para velocidade normalmente chegam ao máximo entre 70 e 100 TPS.

Crucialmente, essa velocidade não parece vir à custa da capacidade de raciocínio. No benchmark AIME 2025, que testa raciocínio matemático avançado, o Mercury 2 marcou 91,1, superando significativamente modelos menores focados em velocidade e competindo diretamente com modelos de fronteira muito maiores.

Inception Labs também posicionou o Mercury 2 como um disruptor de custos. O modelo tem o preço de $0,25 por milhão de tokens de entrada e $0,75 por milhão de tokens de saída. Essa estratégia de preços reduz significativamente os principais concorrentes, tornando a IA de alta velocidade e nível de raciocínio acessível para cargas de trabalho empresariais de alto volume.

Análise Comparativa: Mercury 2 vs. O Mercado

Para entender a magnitude desse salto, é essencial comparar o Mercury 2 com a geração atual de modelos "rápidos", como o Claude 4.5 Haiku e o GPT-5 Mini. Os dados sugerem que a Inception Labs alcançou uma melhoria de uma ordem de magnitude na vazão.

Tabela 1: Comparação de Desempenho e Custo

Nome do Modelo	Arquitetura	Vazão (Tokens/Seg)	Custo de Entrada (por 1M)	Custo de Saída (por 1M)	Benchmark AIME
Mercury 2	Difusão	~1.009	$0,25	$0,75	91,1
Claude 4.5 Haiku	Autorregressiva	~89	$1,00	$5,00	39,0
GPT-5 Mini	Autorregressiva	~71	N/A	N/A	27,0
Gemini 3 Flash	Autorregressiva	~100	$0,50	$3,00	N/A

Nota: As pontuações de benchmark e as velocidades baseiam-se em dados divulgados pela Inception Labs e em benchmarks iniciais independentes citados em relatórios técnicos.

Raciocínio em Tempo Real: Uma Nova Fronteira para Agentes

As implicações do Mercury 2 estendem-se além dos benchmarks brutos. A baixa latência do modelo está preparada para revolucionar a implantação de agentes de IA. Em fluxos de trabalho complexos onde uma IA deve planejar, usar ferramentas e iterar, os modelos tradicionais frequentemente introduzem segundos de atraso a cada etapa, resultando em experiências de usuário lentas. As capacidades de processamento sub-segundo do Mercury 2 permitem "ciclos fechados" onde os agentes podem pensar, agir e se corrigir quase instantaneamente.

Isso é particularmente relevante para IA de voz, assistentes de codificação e busca em tempo real, onde os usuários esperam respostas quase instantâneas. Um assistente de codificação alimentado pelo Mercury 2, por exemplo, poderia refatorar um arquivo inteiro de código no tempo que um modelo padrão leva para escrever as primeiras linhas.

Disponibilidade na Indústria

A Inception Labs disponibilizou o Mercury 2 imediatamente através de uma API compatível com OpenAI, permitindo que os desenvolvedores o integrem na infraestrutura existente com o mínimo de atrito. O modelo suporta uma janela de contexto de 128k, chamada de ferramentas (tool calling) e saídas JSON estruturadas, garantindo que atenda às demandas práticas dos ambientes de produção modernos.

As a indústria de IA continua a buscar a "próxima grande coisa" além do Transformer, o Mercury 2 fornece um argumento convincente de que o futuro pode estar na difusão. Ao resolver o gargalo da velocidade de inferência, a Inception Labs não apenas lançou um modelo mais rápido, mas potencialmente redefiniu as expectativas básicas para o que a IA em tempo real pode alcançar.