
En un momento decisivo para la IA generativa (Generative AI), Inception Labs ha lanzado oficialmente Mercury 2, un modelo de lenguaje innovador que reinventa fundamentalmente cómo las máquinas generan texto. Al abandonar la arquitectura autorregresiva (autoregressive architecture) estándar de la industria en favor del procesamiento paralelo basado en difusión (diffusion-based parallel processing), Mercury 2 alcanza un rendimiento (throughput) asombroso de más de 1,000 tokens por segundo en las GPUs NVIDIA Blackwell. Este lanzamiento marca la primera vez que un modelo capaz de razonar rompe el "muro de latencia" (latency wall) que durante mucho tiempo ha limitado las aplicaciones de IA en tiempo real, ofreciendo una solución que es de cinco a diez veces más rápida que sus competidores más cercanos, al tiempo que reduce significativamente los modelos de precios actuales.
Durante años, el panorama de los grandes modelos de lenguaje (LLM, Large Language Model) ha estado dominado por los transformadores (transformers) autorregresivos. Modelos como GPT-4 y Claude generan texto de forma secuencial, prediciendo un token (aproximadamente una palabra o parte de una palabra) a la vez. Aunque es eficaz, este proceso en serie crea un límite de velocidad inevitable: el modelo no puede generar el final de una oración antes de haber terminado el principio. A medida que los modelos han crecido y las tareas de razonamiento se han vuelto más complejas, este enfoque "token por token" se ha convertido en un cuello de botella para las aplicaciones sensibles a la latencia.
Mercury 2 desmantela este paradigma utilizando una arquitectura de difusión (diffusion architecture). En lugar de "escribir" una respuesta de forma secuencial, Mercury 2 actúa más como un escultor que revela una estatua a partir de un bloque de mármol. Comienza con un borrador ruidoso y aproximado de toda la respuesta y refina todos los tokens simultáneamente en pasos paralelos. Esto permite que el modelo "vea" el futuro de la oración mientras corrige el principio, habilitando una coherencia global y una autocorrección que los modelos secuenciales tienen dificultades para lograr sin un costoso retroceso.
Según Inception Labs, este cambio arquitectónico permite a Mercury 2 generar resultados de razonamiento complejos con una latencia de extremo a extremo de solo 1.7 segundos, una fracción del tiempo requerido por los modelos tradicionales para tareas similares.
Las métricas de rendimiento publicadas por Inception Labs describen un modelo que ocupa una nueva categoría de eficiencia. Al ejecutarse en hardware NVIDIA Blackwell, Mercury 2 alcanza un rendimiento de aproximadamente 1,009 tokens por segundo (TPS). Para contextualizar, los modelos autorregresivos líderes optimizados para la velocidad suelen alcanzar un máximo de entre 70 y 100 TPS.
Crucialmente, esta velocidad no parece ir en detrimento de la capacidad de razonamiento. En el benchmark AIME 2025, que pone a prueba el razonamiento matemático avanzado, Mercury 2 obtuvo una puntuación de 91.1, superando significativamente a los modelos más pequeños enfocados en la velocidad y compitiendo directamente con modelos de frontera mucho más grandes.
Inception Labs también ha posicionado a Mercury 2 como un disruptor de costes. El modelo tiene un precio de $0.25 por millón de tokens de entrada y $0.75 por millón de tokens de salida. Esta estrategia de precios reduce significativamente los costes frente a los principales competidores, haciendo que la IA de alta velocidad y nivel de razonamiento sea accesible para cargas de trabajo empresariales de gran volumen.
Para comprender la magnitud de este salto, es esencial comparar a Mercury 2 con la generación actual de modelos "rápidos", como Claude 4.5 Haiku y GPT-5 Mini. Los datos sugieren que Inception Labs ha logrado una mejora de un orden de magnitud en el rendimiento.
Tabla 1: Comparación de rendimiento y coste
| Nombre del modelo | Arquitectura | Rendimiento (Tokens/Seg) | Coste de entrada (por 1M) | Coste de salida (por 1M) | Benchmark AIME |
|---|---|---|---|---|---|
| Mercury 2 | Difusión | ~1,009 | $0.25 | $0.75 | 91.1 |
| Claude 4.5 Haiku | Autorregresiva | ~89 | $1.00 | $5.00 | 39.0 |
| GPT-5 Mini | Autorregresiva | ~71 | N/A | N/A | 27.0 |
| Gemini 3 Flash | Autorregresiva | ~100 | $0.50 | $3.00 | N/A |
Nota: Las puntuaciones y velocidades de los benchmarks se basan en datos publicados por Inception Labs y benchmarks iniciales independientes citados en informes técnicos.
Las implicaciones de Mercury 2 se extienden más allá de los benchmarks brutos. La baja latencia del modelo está preparada para revolucionar el despliegue de agentes de IA. En flujos de trabajo complejos donde una IA debe planificar, usar herramientas e iterar, los modelos tradicionales suelen introducir segundos de retraso en cada paso, lo que resulta en experiencias de usuario lentas. Las capacidades de procesamiento de menos de un segundo de Mercury 2 permiten "bucles cerrados" (tight loops) donde los agentes pueden pensar, actuar y corregirse casi instantáneamente.
Esto es particularmente relevante para la IA de voz, los asistentes de programación y la búsqueda en tiempo real, donde los usuarios esperan respuestas casi instantáneas. Un asistente de programación impulsado por Mercury 2, por ejemplo, podría refactorizar un archivo completo de código en el tiempo que le toma a un modelo estándar escribir las primeras líneas.
Inception Labs ha puesto a Mercury 2 a disposición de inmediato a través de una API compatible con OpenAI, lo que permite a los desarrolladores integrarlo en la infraestructura existente con una fricción mínima. El modelo admite una ventana de contexto de 128k, llamada a herramientas (tool calling) y salidas JSON estructuradas, lo que garantiza que cumple con las demandas prácticas de los entornos de producción modernos.
A medida que la industria de la IA continúa buscando la "próxima gran novedad" más allá del Transformer, Mercury 2 ofrece un argumento convincente de que el futuro puede residir en la difusión. Al resolver el cuello de botella de la velocidad de inferencia, Inception Labs no solo ha lanzado un modelo más rápido, sino que potencialmente ha restablecido las expectativas básicas de lo que la IA en tiempo real puede lograr.