Google Gemini 2.5 Pro 在 LMArena 榜單上名列前茅，於數學、科學與程式設計表現卓越

Google Gemini 2.5 Pro 重奪 AI 霸主地位，橫掃 LMArena 並驗證 Alphabet 第四季度創紀錄營收

在人工智慧產業的關鍵時刻，Google 的 Gemini 2.5 Pro 正式奪得聲望卓著的 LMArena 排行榜 首位，超越了包括 OpenAI 的 o3、Anthropic 的 Claude 以及 DeepSeek 在內的強勁對手。這場技術勝利恰逢 Alphabet 發佈 2025 年第四季度財報，這家科技巨頭首次報告年營收超過 4,000 億美元，這主要得益於 Google Cloud 48% 的爆發式增長。

這場在技術能力與財務表現上的雙重勝利，標誌著 AI 領域的決定性轉變。如果說 2025 年的特點是模型發佈的快速更迭，那麼 2026 年初則正在塑造一個 Google 的整合基礎設施與「思考型」模型能力轉化為實質市場主導地位的時代。

LMArena 的勝利：人類偏好度的壓倒性領先

LMArena（前身為 LMSYS Chatbot Arena）排行榜被廣泛視為大型語言模型（LLMs）的「民眾選擇」基準，它依賴於真實使用場景中的盲測 A/B 測試，而非靜態數據集。Gemini 2.5 Pro 晉升至榜首不僅是統計學上的優勢，更代表了用戶偏好度的重大飛躍。

根據最新數據，Gemini 2.5 Pro 已領先其最接近的競爭對手 OpenAI o3 近 40 個 Elo 積分。這一差距具有歷史意義，因為排行榜頂部的變動通常是以個位數衡量的。該模型的成功歸功於其「原生推理」能力——在內部通常被稱為「系統 2」（System 2）思考——這使其在生成數學、程式碼編寫和科學推理等複雜查詢的回答之前，能夠進行停頓與深思熟慮。

「Gemini 2.5 Pro 不僅僅是回答；它能理解請求的細微差別，」來自 LMArena 團隊的一位首席研究員指出。「在涉及複雜指令遵循和多輪程式碼編寫任務的盲測中，與之前的頂尖模型相比，用戶在超過 70% 的情況下更青睞 Gemini 的輸出。」

技術深度解析：基準測試新王者

Google 的領先主張得到了系列嚴格基準測試的支持。雖然人類偏好具有主觀性，但推理與技術領域的硬性數據清晰地展現了 Gemini 2.5 Pro 的實力。該模型在 STEM 領域表現卓越，而該領域曾是 DeepSeek 與 OpenAI 佔據強勢地位的戰場。

下表展示了 Gemini 2.5 Pro 在關鍵行業基準測試中與頂級競爭對手的對比：

對比性能：Gemini 2.5 Pro vs. 頂級對手

基準測試類別	Gemini 2.5 Pro	OpenAI o3	Claude 3.7 Sonnet
LMArena Elo 評分	1350	1312	1298
MATH (AIME 2025)	94.2%	93.1%	88.5%
SWE-Bench Verified (程式碼編寫)	63.8%	60.1%	58.2%
GPQA Diamond (科學)	84.0%	83.5%	81.2%
WebDev Arena (Elo)	1443	1380	1412

程式碼編寫與代理工作流

在 SWE-Bench Verified 和 WebDev Arena 評分中觀察到了最顯著的領先。Gemini 2.5 Pro 在 SWE-Bench Verified（評估 AI 解決真實 GitHub 問題能力的行業標準）中獲得了 63.8% 的分數，這表明它正從簡單的程式碼生成轉向真正的軟體工程。開發者報告稱，該模型的 100 萬 token 上下文視窗允許其攝取整個代碼庫，並以媲美資深工程師的連貫性提出架構重構建議。

數學與科學推理

在純邏輯領域，Gemini 2.5 Pro 在 AIME 2025 中獲得了 94.2% 的分數，險勝 OpenAI o3。這一表現得益於 Google 專有的「自適應思考」過程，該過程能動態分配運算資源，以便在更難的問題上「思考」更長時間。與之前需要特定提示技巧的迭代不同，Gemini 2.5 Pro 自主應用這種推理，使其在科學研究和複雜數據分析中極其有效。

財務驗證：4,000 億美元里程碑

Gemini 2.5 Pro 的技術榮譽為 Alphabet 昨天發佈的驚人財務報告提供了背景。在 2025 年第四季度財報電話會議上，執行長 Sundar Pichai 強調了其先進 AI 模型與業務增長之間的共生關係。

「我們在 AI 基礎設施和創新方面的投資正在產生直接回報，」Pichai 表示。「Gemini 模型的發佈及隨後的採用，加速了搜尋、YouTube 和雲端業務的增長勢頭。」

與 AI 成功相關的關鍵財務亮點包括：

Google Cloud 營收： 本季度飆升 48% 達 177 億美元，這主要由企業透過 Vertex AI 採用 Gemini 所推動。
Gemini 企業版採用率： 已售出超過 800 萬個付費席位，鞏固了其作為企業界生產力必備工具的地位。
基礎設施投資： Alphabet 宣佈了 2026 財年 1,750 億至 1,850 億美元 的大膽資本支出計劃，明確用於支援 Gemini 3 等下一代模型所需的伺服器基礎設施，以及 Gemini 2.5 Pro 的持續運作。

對 AI 市場的戰略影響

Google 重新回到排行榜榜首，打破了 OpenAI 或 DeepSeek 等敏捷新創公司將永久超越科技巨頭的論調。

成本效益作為武器：
Gemini 2.5 Pro 最具顛覆性的方面之一是其性價比。報告指出，雖然它的表現優於 OpenAI o3，但其推論成本僅約為 1/10。這種效率可能歸功於 Google 使用了專為 Gemini 架構優化的第六代張量處理單元（TPUs）。對於企業客戶而言，這種價格差異使 Gemini 2.5 Pro 成為高業務量應用的預設選擇，有效地將高智能 AI 商品化。

DeepSeek 因素：
雖然 DeepSeek 憑藉其開源權重模型和高效推理佔據了新聞頭條，但 Gemini 2.5 Pro 整合進 Google 生態系統（Workspace、Android、搜尋）提供了獨立模型難以逾越的「護城河」。LMArena 的結果表明，當易用性和整合度與原始智能共同考慮時，整合式方案正贏得用戶青睞。

結論

截至 2026 年 2 月，AI 等級制度已重新洗牌。Google Gemini 2.5 Pro 成為人類偏好與技術基準雙重驗證的領導者，結束了排行榜頂端的一段劇烈波動期。憑藉 4,000 億美元的營收引擎以及明確的 2026 年藍圖，Google 有效證明了其不僅能在生成式 AI（Generative AI）軍備競賽中競爭，還能主導其節奏。

對於開發者和企業來說，資訊很明確：智慧、速度與成本之間的權衡正在消失。Gemini 2.5 Pro 同時實現了這三點，為世界對人工智慧的期待設定了新基準。

Google Gemini 2.5 Pro 重奪 AI 霸主地位，橫掃 LMArena 並驗證 Alphabet 第四季度創紀錄營收

LMArena 的勝利：人類偏好度的壓倒性領先

技術深度解析：基準測試新王者

程式碼編寫與代理工作流

數學與科學推理

財務驗證：4,000 億美元里程碑

對 AI 市場的戰略影響

結論

ex ads 202603311112

Google Gemini 2.5 Pro 在 LMArena 榜單上名列前茅，於數學、科學與程式設計表現卓越

Google 的 Gemini 2.5 Pro 在 LMArena 排行榜中獲得最高名次，在推理、數學、科學和程式設計基準測試中超越 OpenAI、Claude 與 DeepSeek。

Google Gemini 2.5 Pro 重奪 AI 霸主地位，橫掃 LMArena 並驗證 Alphabet 第四季度創紀錄營收

LMArena 的勝利：人類偏好度的壓倒性領先

技術深度解析：基準測試新王者

程式碼編寫與代理工作流

數學與科學推理

財務驗證：4,000 億美元里程碑

對 AI 市場的戰略影響

結論

Related AI News

Google 將 Gemini AI 整合到 Gmail 中以提升搜尋與撰寫功能

ex ads 202603311112

Google Gemini 2.5 Pro 在 LMArena 榜單上名列前茅，於數學、科學與程式設計表現卓越

Google 的 Gemini 2.5 Pro 在 LMArena 排行榜中獲得最高名次，在推理、數學、科學和程式設計基準測試中超越 OpenAI、Claude 與 DeepSeek。