
為了鞏固其基礎設施主權並減少對第三方硬體供應商的依賴,Microsoft 正式推出了其第二代 AI 加速器 Maia 200。該產品於 2026 年 1 月 27 日正式宣布,Maia 200 代表在為大規模 AI 推論(inference)之嚴苛需求量身打造的客製化晶片上的重大演進。
該晶片採用 TSMC 的先進 3nm 製程技術 製作,旨在為 Azure 的龐大雲端工作負載優化每瓦效能比。Microsoft 宣稱其在 FP4 性能上達到競爭對手 Amazon Trainium 的三倍,並將 Maia 200 定位為不僅能節省成本,還能在競爭激烈的雲端 AI 市場中成為效能領導者。
從前一代的 5nm 架構轉換到 TSMC 的 3nm 製程,對 Maia 系列而言是一次關鍵升級。製程的縮減使得電晶體密度大幅增加,使 Microsoft 的工程師可以在單一晶片上塞入更多運算核心,同時降低能耗。
對於 AI 推論(inference)—即將即時資料送入已訓練模型的過程—效率是關鍵。與需要大量瞬時運算的訓練不同,推論是恆常、持續運行的工作負載,主導資料中心的能源成本。藉由採用 3nm 製程,Microsoft 宣稱 Maia 200 與其前代 Maia 100 相比,能將能耗降低 40%,並將生成式 AI(Generative AI)查詢的吞吐量提高一倍。
這次架構上的精進主要著重於 低精度運算(low-precision arithmetic),特別是 FP4 (4-bit floating point) 資料格式。隨著 大型語言模型(Large Language Models,LLMs)持續膨脹,量化(quantization)—降低計算精度以節省記憶體與運算—已成為部署的業界標準。Maia 200 的專用張量核心(tensor cores)為處理這些低精度運算而打造,可在幾乎不影響準確度的情況下執行,這對於向數百萬同時用戶提供像 GPT-5 等模型來說,是個關鍵需求。
Microsoft 在發表會上的主要指標是與 Amazon Web Services(AWS)的客製化晶片做比較。Microsoft 主張 Maia 200 在 FP4 性能上達到 Amazon Trainium 的 3 倍,此一宣稱直接針對目前在 AWS 上部署的企業 AI 開發者這個利基市場。
儘管 Nvidia 以其 H100 和 Blackwell 系列 GPU 在訓練叢集領域仍穩居無可置疑的王者地位,推論市場則較為分散且易受顛覆。Maia 200 並非必然以訓練時的原始浮點運算每秒(FLOPS)來擊敗 Nvidia 的旗艦 GPU;而是以降低推論工作負載的 總擁有成本(Total Cost of Ownership,TCO) 作為設計目標來超越它們。
透過將晶片直接整合到 Azure 的客製化伺服器機架中—並配備在 Maia 100 中推出的專有「Sidekick」液冷基礎設施—Microsoft 消除了常見於成品硬體整合的瓶頸。
表 1:AI 加速器競爭格局(2026)
| Feature | Microsoft Maia 200 | Amazon Trainium2 (Ref) | Nvidia H100 (Ref) |
|---|---|---|---|
| Primary Workload | 推論與微調 | 訓練與推論 | 通用 AI |
| Process Node | TSMC 3nm | TSMC 4nm | TSMC 4N |
| Key Performance Claim | FP4 效能為 Trainium 的 3 倍 | 高擴展性 | 通用相容性 |
| Precision Optimization | FP4, FP8, INT8 | FP8, TF32 | FP8, FP16, FP32, FP64 |
| Interconnect | 自訂乙太網路為基礎 | Elastic Fabric Adapter | NVLink |
Maia 200 發表的戰略底蘊很明顯:供應鏈獨立(supply chain independence)。多年來,Microsoft 與同業 Google 和 Meta 一樣,受制於 Nvidia 的配額週期與價格結構。隨著生成式 AI(Generative AI)的需求持續高漲,無法取得足夠 GPU 的問題已成為雲端成長的瓶頸。
透過在 Azure 資料中心大規模部署 Maia 200,Microsoft 可以將其內部工作負載(例如 Microsoft 365 Copilot、GitHub Copilot 與 Bing Chat)從昂貴的 Nvidia 硬體上遷移下來。此一內部遷移有兩個目的:
在技術簡報中,一位 Microsoft 發言人指出:「目標並非要完全取代 Nvidia。目標是為每項工作提供合適的晶片。對於我們大規模基礎模型的推論,Maia 200 簡單地是我們擁有的最高效工具。」
Maia 200 的發表突顯了 AI 產業從「以訓練為優先」("training-first")心態,轉向「以推論為優先」("inference-first")現實的更廣泛轉變。隨著基礎模型穩定,專門用於使用這些模型的運算量已經超過用於建立它們的運算量。
雲端服務供應商正競相為這個新現實優化其基礎設施。Maia 200 採用了更新的網路互連設計,能讓數千顆晶片協同運作,降低即時應用的延遲。這對語音型 AI 代理與即時影片處理尤為關鍵,因為毫秒級的延遲使用者就能察覺。
關鍵的架構改進包括:
硬體的價值仰賴於運行其上的軟體。Microsoft 在過去兩年中持續精煉 Maia 的軟體棧,確保與 PyTorch 與 ONNX Runtime 無縫相容。這可讓目前基於 Nvidia 的 CUDA 平台開發的開發者,以最少的程式碼變更將其推論工作負載移植到 Maia 實例上。
Maia 200 預計於下個月在北美與歐洲的部分 Azure 資料中心開始部署,並計畫於 2026 年第 3 季對 Azure OpenAI Service 客戶全面開放。
隨著「晶片大戰」("Chip Wars")加劇,Maia 200 證明了超大規模雲端業者不再甘於被動購買晶片。他們現在成為自家命運的積極設計師,於硬體層面推動創新,以支撐軟體層的爆炸性成長。有了 Maia 200,Microsoft 不只是造出一顆晶片;它也為其 AI 商業模式築起了一道堡壘。