Inception Labs 推出 Mercury 2：全球最快的推理型 LLM，透過擴散架構達成每秒 1,000+ 代幣

Inception Labs 憑藉 Mercury 2 打破速度極限：首款基於擴散的推理模型（Diffusion-Based Reasoning Model）

在生成式 AI（Generative AI）的決定性時刻，Inception Labs 正式推出了 Mercury 2，這是一款從根本上重新構想機器如何生成文本的突破性語言模型。透過放棄行業標準的自回歸（Autoregressive）架構，轉而採用基於擴散的並行處理（Diffusion-based parallel processing），Mercury 2 在 NVIDIA Blackwell GPU 上實現了每秒超過 1,000 個 Token 的驚人吞吐量。此次發佈標誌著具備推理能力的模型首次打破了長期制約即時 AI 應用的「延遲牆」，提供了一個比最接近的競爭對手快五到十倍的解決方案，同時顯著降低了當前的定價模式。

自回歸瓶頸的終結

多年來，大型語言模型（Large Language Model，LLM）領域一直由自回歸 Transformer 主導。像 GPT-4 和 Claude 這樣的模型會按順序生成文本，一次預測一個 Token（大約一個單詞或單詞的一部分）。雖然這種串行過程很有效，但它創造了一個無法避免的速度限制：模型在完成開頭之前無法生成句子的結尾。隨著模型規模的擴大和推理任務的日益複雜，這種「逐個 Token」的方法已成為延遲敏感型應用的瓶頸。

Mercury 2 透過利用擴散架構（Diffusion architecture）拆解了這一範式。Mercury 2 的運作方式更像是從一塊大理石中雕刻出塑像的雕塑家，而不是按順序「打字」回覆。它從整個回覆的一個充滿雜訊、粗略的草稿開始，並在並行步驟中同時精煉所有 Token。這使得模型能夠在修正開頭的同時「看到」句子的未來，實現了全局連貫性和自我修正，而這正是串行模型在沒有昂貴的回溯情況下難以實現的。

根據 Inception Labs 的說法，這種架構轉變使得 Mercury 2 能夠生成複雜的推理輸出，端到端延遲僅為 1.7 秒，僅為傳統模型處理類似任務所需時間的一小部分。

無與倫比的性能與經濟性

Inception Labs 發佈的性能指標描繪了一個屬於全新效率類別的模型。在 NVIDIA Blackwell 硬體上運行，Mercury 2 實現了約每秒 1,009 個 Token (TPS) 的吞吐量。作為參考，領先的速度優化自回歸模型通常在 70 到 100 TPS 之間達到極限。

至關重要的是，這種速度似乎並未以犧牲推理能力為代價。在測試高級數學推理的 AIME 2025 基準測試中，Mercury 2 獲得了 91.1 分，顯著優於較小的專注於速度的模型，並直接與更大的前沿模型競爭。

Inception Labs 還將 Mercury 2 定位為成本顛覆者。該模型的定價為每百萬輸入 Token 0.25 美元，以及每百萬輸出 Token 0.75 美元。這一價格策略顯著低於主要競爭對手，使得高速、推理級 AI 可用於大容量的企業工作負載。

比較分析：Mercury 2 對比同類產品

為了理解這一跨越的幅度，有必要將 Mercury 2 與當前一代的「快速」模型（如 Claude 4.5 Haiku 和 GPT-5 Mini）進行比較。數據表明，Inception Labs 在吞吐量方面實現了數量級的提升。

表 1：性能與成本比較

模型名稱	架構	吞吐量 (Tokens/秒)	輸入成本 (每 1M)	輸出成本 (每 1M)	AIME 基準測試
Mercury 2	擴散 (Diffusion)	~1,009	$0.25	$0.75	91.1
Claude 4.5 Haiku	自回歸 (Autoregressive)	~89	$1.00	$5.00	39.0
GPT-5 Mini	自回歸 (Autoregressive)	~71	N/A	N/A	27.0
Gemini 3 Flash	自回歸 (Autoregressive)	~100	$0.50	$3.00	N/A

註：基準測試分數和速度基於 Inception Labs 發佈的數據以及技術報告中引用的獨立早期基準測試。

即時推理：智能體的新前沿

Mercury 2 的影響超出了原始基準測試。該模型的低延遲有望徹底改變 AI 智能體（AI agents）的部署。在 AI 必須規劃、使用工具並進行迭代的複雜工作流中，傳統模型往往在每一步都會引入數秒的延遲，導致用戶體驗遲緩。Mercury 2 的亞秒級處理能力允許「緊湊循環」，使智能體能夠幾乎即時地思考、行動並自我修正。

這對於語音 AI、編碼助手和即時搜尋尤為重要，因為用戶期望近乎瞬時的回應。例如，由 Mercury 2 驅動的編碼助手可以在標準模型編寫前幾行代碼的時間內，重構整個代碼文件。

行業可用性

Inception Labs 已立即透過與 OpenAI 兼容的 API 提供 Mercury 2，允許開發者以極小的摩擦將其更換到現有基礎架構中。該模型支持 128k 上下文窗口（Context window）、工具調用（Tool calling）和結構化 JSON 輸出，確保其滿足現代生產環境的實際需求。

隨著 AI 行業繼續在 Transformer 之外尋找「下一個大事件」，Mercury 2 提供了一個引人注目的論點，即未來可能在於擴散技術。透過解決推理速度瓶頸，Inception Labs 不僅發佈了一個更快的模型，而且可能重新設定了對即時 AI 所能實現目標的基準預期。