Inception Labs가 Mercury 2 출시: 확산 아키텍처로 초당 1,000개 이상의 토큰을 처리하는 세계에서 가장 빠른 추론형 LLM
Inception Labs는 Mercury 2를 공개했습니다. 이 모델은 디퓨전 기반의 추론 언어 모델로 NVIDIA Blackwell GPU에서 초당 1,000개 이상의 토큰을 생성하여 주요 자기회귀(autoregressive) 경쟁 모델보다 5배 이상 빠릅니다. 전통적인 순차적 디코딩과 달리 Mercury 2는 병렬 토큰 정제를 사용하여 실시간 대기시간 예산 내에서 추론 수준의 품질을 제공하며, 입력 토큰 100만 개당 비용은 $0.25입니다.


