
在生成式 AI(Generative AI)的決定性時刻,Inception Labs 正式推出了 Mercury 2,這是一款從根本上重新構想機器如何生成文本的突破性語言模型。透過放棄行業標準的自回歸(Autoregressive)架構,轉而採用基於擴散的並行處理(Diffusion-based parallel processing),Mercury 2 在 NVIDIA Blackwell GPU 上實現了每秒超過 1,000 個 Token 的驚人吞吐量。此次發佈標誌著具備推理能力的模型首次打破了長期制約即時 AI 應用的「延遲牆」,提供了一個比最接近的競爭對手快五到十倍的解決方案,同時顯著降低了當前的定價模式。
多年來,大型語言模型(Large Language Model,LLM)領域一直由自回歸 Transformer 主導。像 GPT-4 和 Claude 這樣的模型會按順序生成文本,一次預測一個 Token(大約一個單詞或單詞的一部分)。雖然這種串行過程很有效,但它創造了一個無法避免的速度限制:模型在完成開頭之前無法生成句子的結尾。隨著模型規模的擴大和推理任務的日益複雜,這種「逐個 Token」的方法已成為延遲敏感型應用的瓶頸。
Mercury 2 透過利用擴散架構(Diffusion architecture)拆解了這一範式。Mercury 2 的運作方式更像是從一塊大理石中雕刻出塑像的雕塑家,而不是按順序「打字」回覆。它從整個回覆的一個充滿雜訊、粗略的草稿開始,並在並行步驟中同時精煉所有 Token。這使得模型能夠在修正開頭的同時「看到」句子的未來,實現了全局連貫性和自我修正,而這正是串行模型在沒有昂貴的回溯情況下難以實現的。
根據 Inception Labs 的說法,這種架構轉變使得 Mercury 2 能夠生成複雜的推理輸出,端到端延遲僅為 1.7 秒,僅為傳統模型處理類似任務所需時間的一小部分。
Inception Labs 發佈的性能指標描繪了一個屬於全新效率類別的模型。在 NVIDIA Blackwell 硬體上運行,Mercury 2 實現了約每秒 1,009 個 Token (TPS) 的吞吐量。作為參考,領先的速度優化自回歸模型通常在 70 到 100 TPS 之間達到極限。
至關重要的是,這種速度似乎並未以犧牲推理能力為代價。在測試高級數學推理的 AIME 2025 基準測試中,Mercury 2 獲得了 91.1 分,顯著優於較小的專注於速度的模型,並直接與更大的前沿模型競爭。
Inception Labs 還將 Mercury 2 定位為成本顛覆者。該模型的定價為每百萬輸入 Token 0.25 美元,以及每百萬輸出 Token 0.75 美元。這一價格策略顯著低於主要競爭對手,使得高速、推理級 AI 可用於大容量的企業工作負載。
為了理解這一跨越的幅度,有必要將 Mercury 2 與當前一代的「快速」模型(如 Claude 4.5 Haiku 和 GPT-5 Mini)進行比較。數據表明,Inception Labs 在吞吐量方面實現了數量級的提升。
表 1:性能與成本比較
| 模型名稱 | 架構 | 吞吐量 (Tokens/秒) | 輸入成本 (每 1M) | 輸出成本 (每 1M) | AIME 基準測試 |
|---|---|---|---|---|---|
| Mercury 2 | 擴散 (Diffusion) | ~1,009 | $0.25 | $0.75 | 91.1 |
| Claude 4.5 Haiku | 自回歸 (Autoregressive) | ~89 | $1.00 | $5.00 | 39.0 |
| GPT-5 Mini | 自回歸 (Autoregressive) | ~71 | N/A | N/A | 27.0 |
| Gemini 3 Flash | 自回歸 (Autoregressive) | ~100 | $0.50 | $3.00 | N/A |
註:基準測試分數和速度基於 Inception Labs 發佈的數據以及技術報告中引用的獨立早期基準測試。
Mercury 2 的影響超出了原始基準測試。該模型的低延遲有望徹底改變 AI 智能體(AI agents)的部署。在 AI 必須規劃、使用工具並進行迭代的複雜工作流中,傳統模型往往在每一步都會引入數秒的延遲,導致用戶體驗遲緩。Mercury 2 的亞秒級處理能力允許「緊湊循環」,使智能體能夠幾乎即時地思考、行動並自我修正。
這對於語音 AI、編碼助手和即時搜尋尤為重要,因為用戶期望近乎瞬時的回應。例如,由 Mercury 2 驅動的編碼助手可以在標準模型編寫前幾行代碼的時間內,重構整個代碼文件。
Inception Labs 已立即透過與 OpenAI 兼容的 API 提供 Mercury 2,允許開發者以極小的摩擦將其更換到現有基礎架構中。該模型支持 128k 上下文窗口(Context window)、工具調用(Tool calling)和結構化 JSON 輸出,確保其滿足現代生產環境的實際需求。
隨著 AI 行業繼續在 Transformer 之外尋找「下一個大事件」,Mercury 2 提供了一個引人注目的論點,即未來可能在於擴散技術。透過解決推理速度瓶頸,Inception Labs 不僅發佈了一個更快的模型,而且可能重新設定了對即時 AI 所能實現目標的基準預期。