Inception Labs가 Mercury 2 출시: 확산 아키텍처로 초당 1,000개 이상의 토큰을 처리하는 세계에서 가장 빠른 추론형 LLM

Inception Labs, Mercury 2로 속도 제한 돌파: 최초의 확산 기반 추론 모델 (Diffusion-Based Reasoning Model)

생성형 AI (Generative AI)의 결정적인 순간에 Inception Labs가 기계가 텍스트를 생성하는 방식을 근본적으로 재구성하는 획기적인 언어 모델인 Mercury 2를 공식 출시했습니다. 업계 표준인 자기회귀 아키텍처 (Autoregressive Architecture)를 버리고 확산 기반 병렬 처리 (Diffusion-Based Parallel Processing)를 채택함으로써, Mercury 2는 NVIDIA Blackwell GPU에서 초당 1,000개 이상의 토큰이라는 놀라운 처리량 (Throughput)을 달성했습니다. 이번 발표는 추론 능력을 갖춘 모델이 실시간 AI 애플리케이션을 오랫동안 제약해 왔던 "지연 시간의 벽 (latency wall)"을 처음으로 허문 것으로, 현재의 가격 모델보다 훨씬 저렴하면서도 가장 가까운 경쟁 모델보다 5~10배 빠른 솔루션을 제공합니다.

자기회귀 병목 현상의 종말

수년간 대규모 언어 모델 (LLM) 분야는 자기회귀 트랜스포머가 지배해 왔습니다. GPT-4 및 Claude와 같은 모델은 한 번에 하나의 토큰(대략 단어 하나 또는 단어의 일부)을 예측하며 순차적으로 텍스트를 생성합니다. 이러한 직렬 프로세스는 효과적이긴 하지만 피할 수 없는 속도 제한을 만듭니다. 모델이 문장의 시작 부분을 끝내기 전에는 문장의 끝을 생성할 수 없기 때문입니다. 모델이 커지고 추론 작업이 복잡해짐에 따라, 이러한 "토큰별 (token-by-token)" 접근 방식은 지연 시간에 민감한 애플리케이션의 병목 현상이 되었습니다.

Mercury 2는 확산 아키텍처 (Diffusion Architecture)를 활용하여 이 패러다임을 해체합니다. Mercury 2는 응답을 순차적으로 "타이핑"하는 대신, 대리석 블록에서 조각상을 드러내는 조각가처럼 행동합니다. 전체 응답의 노이즈가 섞인 거친 초안에서 시작하여 병렬 단계로 모든 토큰을 동시에 정제합니다. 이를 통해 모델은 문장의 시작을 수정하면서 동시에 미래를 "볼" 수 있으며, 순차적 모델이 값비싼 백트래킹 (backtracking) 없이는 달성하기 어려운 글로벌 일관성과 자가 수정을 가능하게 합니다.

Inception Labs에 따르면, 이러한 아키텍처 변화를 통해 Mercury 2는 유사한 작업을 수행하는 기존 모델에 필요한 시간의 아주 일부분인 단 1.7초의 엔드 투 엔드 지연 시간 (End-to-End Latency)으로 복잡한 추론 결과물을 생성할 수 있습니다.

타의 추종을 불허하는 성능과 경제성

Inception Labs가 발표한 성능 지표는 새로운 카테고리의 효율성을 점유하는 모델임을 보여줍니다. NVIDIA Blackwell 하드웨어에서 실행되는 Mercury 2는 약 1,009 TPS (Tokens Per Second)의 처리량을 달성합니다. 참고로, 속도에 최적화된 주요 자기회귀 모델들은 일반적으로 70에서 100 TPS 사이에서 최고치를 기록합니다.

결정적으로, 이러한 속도가 추론 능력을 희생하면서 얻어진 것은 아닌 것으로 보입니다. 고급 수학적 추론을 테스트하는 AIME 2025 벤치마크에서 Mercury 2는 91.1점을 기록하여 속도 중심의 소형 모델들을 크게 앞질렀으며, 훨씬 더 큰 프런티어 모델들과 직접 경쟁하는 수준에 도달했습니다.

Inception Labs는 또한 Mercury 2를 비용 파괴자로 자리매김했습니다. 이 모델의 가격은 입력 토큰 100만 개당 $0.25, 출력 토큰 100만 개당 $0.75로 책정되었습니다. 이러한 가격 책정 전략은 주요 경쟁사들보다 현저히 낮아, 대량의 기업용 워크로드에서도 고속의 추론급 AI를 사용할 수 있게 합니다.

비교 분석: Mercury 2 vs. 경쟁 모델

이 도약의 규모를 이해하기 위해서는 Mercury 2를 Claude 4.5 Haiku 및 GPT-5 Mini와 같은 현재 세대의 "빠른" 모델들과 비교하는 것이 필수적입니다. 데이터에 따르면 Inception Labs는 처리량 면에서 비약적인 발전을 이루었습니다.

Table 1: 성능 및 비용 비교

모델명	아키텍처	처리량 (Tokens/Sec)	입력 비용 (1M당)	출력 비용 (1M당)	AIME 벤치마크
Mercury 2	확산	~1,009	$0.25	$0.75	91.1
Claude 4.5 Haiku	자기회귀	~89	$1.00	$5.00	39.0
GPT-5 Mini	자기회귀	~71	N/A	N/A	27.0
Gemini 3 Flash	자기회귀	~100	$0.50	$3.00	N/A

참고: 벤치마크 점수 및 속도는 Inception Labs에서 발표한 데이터와 기술 보고서에 인용된 독립적인 초기 벤치마크를 기반으로 합니다.

실시간 추론: 에이전트를 위한 새로운 지평

Mercury 2의 영향력은 단순히 수치상의 벤치마크를 넘어섭니다. 이 모델의 낮은 지연 시간은 AI 에이전트 (AI agents)의 배포 방식에 혁신을 일으킬 준비가 되어 있습니다. AI가 계획을 세우고, 도구를 사용하고, 반복해야 하는 복잡한 워크플로우에서 기존 모델은 매 단계마다 수 초의 지연을 발생시켜 사용자 경험을 저하시키는 경우가 많았습니다. Mercury 2의 1초 미만 처리 기능은 에이전트가 거의 즉각적으로 생각하고, 행동하고, 스스로 수정할 수 있는 "타이트 루프 (tight loops)"를 가능하게 합니다.

이는 사용자가 거의 즉각적인 응답을 기대하는 보이스 AI, 코딩 어시스턴트 및 실시간 검색에 특히 유용합니다. 예를 들어 Mercury 2 기반의 코딩 어시스턴트는 표준 모델이 처음 몇 줄을 쓰는 동안 전체 코드 파일을 리팩토링할 수 있습니다.

업계 가용성

Inception Labs는 Mercury 2를 OpenAI 호환 API를 통해 즉시 사용할 수 있도록 하여, 개발자가 최소한의 마찰로 기존 인프라에 이를 교체해 넣을 수 있도록 했습니다. 이 모델은 128k 컨텍스트 창 (context window), 도구 호출 (tool calling) 및 구조화된 JSON 출력을 지원하여 현대적인 프로덕션 환경의 실질적인 요구 사항을 충족합니다.

AI 업계가 트랜스포머 (Transformer)를 넘어선 "차세대 혁신"을 계속 찾고 있는 가운데, Mercury 2는 미래가 확산 기술에 있을 수 있다는 강력한 논거를 제시합니다. 추론 속도 병목 현상을 해결함으로써 Inception Labs는 단순히 더 빠른 모델을 출시한 것을 넘어, 실시간 AI가 달성할 수 있는 기준 기대치를 잠재적으로 재설정했습니다.