Inception Labs lança Mercury 2: o LLM de raciocínio mais rápido do mundo atinge mais de 1.000 tokens por segundo via arquitetura de difusão
A Inception Labs lançou o Mercury 2, um modelo de linguagem de raciocínio baseado em difusão que gera mais de 1.000 tokens por segundo em GPUs NVIDIA Blackwell — mais de cinco vezes mais rápido do que os principais concorrentes autoregressivos. Ao contrário da decodificação sequencial tradicional, o Mercury 2 usa refinamento paralelo de tokens, permitindo qualidade de nível de raciocínio dentro de orçamentos de latência em tempo real com um custo de $0.25 por milhão de tokens de entrada.


