
Em um momento decisivo para a IA generativa (Generative AI), a Inception Labs lançou oficialmente o Mercury 2, um modelo de linguagem inovador que reinventa fundamentalmente a forma como as máquinas geram texto. Ao abandonar a arquitetura autorregressiva (autoregressive) padrão da indústria em favor do processamento paralelo baseado em difusão, o Mercury 2 atinge uma vazão (throughput) impressionante de mais de 1.000 tokens por segundo em GPUs NVIDIA Blackwell. Este lançamento marca a primeira vez que um modelo capaz de raciocínio quebra a "parede de latência" que há muito restringe as aplicações de IA em tempo real, oferecendo uma solução que é cinco a dez vezes mais rápida que seus concorrentes mais próximos, reduzindo significativamente os modelos de preços atuais.
Durante anos, o cenário dos grandes modelos de linguagem (Large Language Models - LLMs) foi dominado por transformadores (transformers) autorregressivos. Modelos como GPT-4 e Claude geram texto sequencialmente, prevendo um token (aproximadamente uma palavra ou parte de uma palavra) por vez. Embora eficaz, esse processo serial cria um limite de velocidade inevitável: o modelo não pode gerar o final de uma frase antes de terminar o início. À medida que os modelos cresceram e as tarefas de raciocínio tornaram-se mais complexas, essa abordagem "token por token" tornou-se um gargalo para aplicações sensíveis à latência.
Mercury 2 desmantela esse paradigma ao utilizar uma arquitetura de difusão. Em vez de "digitar" uma resposta sequencialmente, o Mercury 2 age mais como um escultor revelando uma estátua de um bloco de mármore. Ele começa com um rascunho ruidoso e bruto de toda a resposta e refina todos os tokens simultaneamente em etapas paralelas. Isso permite que o modelo "veja" o futuro da frase enquanto corrige o início, permitindo coerência global e autocorreção que modelos sequenciais lutam para alcançar sem retrocessos dispendiosos.
De acordo com a Inception Labs, essa mudança arquitetônica permite que o Mercury 2 gere saídas de raciocínio complexas com uma latência de ponta a ponta de apenas 1,7 segundos, uma fração do tempo exigido por modelos tradicionais para tarefas semelhantes.
As métricas de desempenho divulgadas pela Inception Labs retratam um modelo que ocupa uma nova categoria de eficiência. Operando em hardware NVIDIA Blackwell, o Mercury 2 atinge uma vazão de aproximadamente 1.009 tokens por segundo (TPS). Para contextualizar, os principais modelos autorregressivos otimizados para velocidade normalmente chegam ao máximo entre 70 e 100 TPS.
Crucialmente, essa velocidade não parece vir à custa da capacidade de raciocínio. No benchmark AIME 2025, que testa raciocínio matemático avançado, o Mercury 2 marcou 91,1, superando significativamente modelos menores focados em velocidade e competindo diretamente com modelos de fronteira muito maiores.
Inception Labs também posicionou o Mercury 2 como um disruptor de custos. O modelo tem o preço de $0,25 por milhão de tokens de entrada e $0,75 por milhão de tokens de saída. Essa estratégia de preços reduz significativamente os principais concorrentes, tornando a IA de alta velocidade e nível de raciocínio acessível para cargas de trabalho empresariais de alto volume.
Para entender a magnitude desse salto, é essencial comparar o Mercury 2 com a geração atual de modelos "rápidos", como o Claude 4.5 Haiku e o GPT-5 Mini. Os dados sugerem que a Inception Labs alcançou uma melhoria de uma ordem de magnitude na vazão.
Tabela 1: Comparação de Desempenho e Custo
| Nome do Modelo | Arquitetura | Vazão (Tokens/Seg) | Custo de Entrada (por 1M) | Custo de Saída (por 1M) | Benchmark AIME |
|---|---|---|---|---|---|
| Mercury 2 | Difusão | ~1.009 | $0,25 | $0,75 | 91,1 |
| Claude 4.5 Haiku | Autorregressiva | ~89 | $1,00 | $5,00 | 39,0 |
| GPT-5 Mini | Autorregressiva | ~71 | N/A | N/A | 27,0 |
| Gemini 3 Flash | Autorregressiva | ~100 | $0,50 | $3,00 | N/A |
Nota: As pontuações de benchmark e as velocidades baseiam-se em dados divulgados pela Inception Labs e em benchmarks iniciais independentes citados em relatórios técnicos.
As implicações do Mercury 2 estendem-se além dos benchmarks brutos. A baixa latência do modelo está preparada para revolucionar a implantação de agentes de IA. Em fluxos de trabalho complexos onde uma IA deve planejar, usar ferramentas e iterar, os modelos tradicionais frequentemente introduzem segundos de atraso a cada etapa, resultando em experiências de usuário lentas. As capacidades de processamento sub-segundo do Mercury 2 permitem "ciclos fechados" onde os agentes podem pensar, agir e se corrigir quase instantaneamente.
Isso é particularmente relevante para IA de voz, assistentes de codificação e busca em tempo real, onde os usuários esperam respostas quase instantâneas. Um assistente de codificação alimentado pelo Mercury 2, por exemplo, poderia refatorar um arquivo inteiro de código no tempo que um modelo padrão leva para escrever as primeiras linhas.
A Inception Labs disponibilizou o Mercury 2 imediatamente através de uma API compatível com OpenAI, permitindo que os desenvolvedores o integrem na infraestrutura existente com o mínimo de atrito. O modelo suporta uma janela de contexto de 128k, chamada de ferramentas (tool calling) e saídas JSON estruturadas, garantindo que atenda às demandas práticas dos ambientes de produção modernos.
As a indústria de IA continua a buscar a "próxima grande coisa" além do Transformer, o Mercury 2 fornece um argumento convincente de que o futuro pode estar na difusão. Ao resolver o gargalo da velocidade de inferência, a Inception Labs não apenas lançou um modelo mais rápido, mas potencialmente redefiniu as expectativas básicas para o que a IA em tempo real pode alcançar.