Google 將 Gemini AI 整合到 Gmail 中以提升搜尋與撰寫功能
Google 已在 Gmail 中推出新的 Gemini AI 功能,為使用者提供 AI 驅動的搜尋摘要與進階寫作協助,作為 Google AI Pro 訂閱的一部分。

在人工智慧產業的關鍵時刻,Google 的 Gemini 2.5 Pro 正式奪得聲望卓著的 LMArena 排行榜 首位,超越了包括 OpenAI 的 o3、Anthropic 的 Claude 以及 DeepSeek 在內的強勁對手。這場技術勝利恰逢 Alphabet 發佈 2025 年第四季度財報,這家科技巨頭首次報告年營收超過 4,000 億美元,這主要得益於 Google Cloud 48% 的爆發式增長。
這場在技術能力與財務表現上的雙重勝利,標誌著 AI 領域的決定性轉變。如果說 2025 年的特點是模型發佈的快速更迭,那麼 2026 年初則正在塑造一個 Google 的整合基礎設施與「思考型」模型能力轉化為實質市場主導地位的時代。
LMArena(前身為 LMSYS Chatbot Arena)排行榜被廣泛視為大型語言模型(LLMs)的「民眾選擇」基準,它依賴於真實使用場景中的盲測 A/B 測試,而非靜態數據集。Gemini 2.5 Pro 晉升至榜首不僅是統計學上的優勢,更代表了用戶偏好度的重大飛躍。
根據最新數據,Gemini 2.5 Pro 已領先其最接近的競爭對手 OpenAI o3 近 40 個 Elo 積分。這一差距具有歷史意義,因為排行榜頂部的變動通常是以個位數衡量的。該模型的成功歸功於其「原生推理」能力——在內部通常被稱為「系統 2」(System 2)思考——這使其在生成數學、程式碼編寫和科學推理等複雜查詢的回答之前,能夠進行停頓與深思熟慮。
「Gemini 2.5 Pro 不僅僅是回答;它能理解請求的細微差別,」來自 LMArena 團隊的一位首席研究員指出。「在涉及複雜指令遵循和多輪程式碼編寫任務的盲測中,與之前的頂尖模型相比,用戶在超過 70% 的情況下更青睞 Gemini 的輸出。」
Google 的領先主張得到了系列嚴格基準測試的支持。雖然人類偏好具有主觀性,但推理與技術領域的硬性數據清晰地展現了 Gemini 2.5 Pro 的實力。該模型在 STEM 領域表現卓越,而該領域曾是 DeepSeek 與 OpenAI 佔據強勢地位的戰場。
下表展示了 Gemini 2.5 Pro 在關鍵行業基準測試中與頂級競爭對手的對比:
對比性能:Gemini 2.5 Pro vs. 頂級對手
| 基準測試類別 | Gemini 2.5 Pro | OpenAI o3 | Claude 3.7 Sonnet |
|---|---|---|---|
| LMArena Elo 評分 | 1350 | 1312 | 1298 |
| MATH (AIME 2025) | 94.2% | 93.1% | 88.5% |
| SWE-Bench Verified (程式碼編寫) | 63.8% | 60.1% | 58.2% |
| GPQA Diamond (科學) | 84.0% | 83.5% | 81.2% |
| WebDev Arena (Elo) | 1443 | 1380 | 1412 |
在 SWE-Bench Verified 和 WebDev Arena 評分中觀察到了最顯著的領先。Gemini 2.5 Pro 在 SWE-Bench Verified(評估 AI 解決真實 GitHub 問題能力的行業標準)中獲得了 63.8% 的分數,這表明它正從簡單的程式碼生成轉向真正的軟體工程。開發者報告稱,該模型的 100 萬 token 上下文視窗允許其攝取整個代碼庫,並以媲美資深工程師的連貫性提出架構重構建議。
在純邏輯領域,Gemini 2.5 Pro 在 AIME 2025 中獲得了 94.2% 的分數,險勝 OpenAI o3。這一表現得益於 Google 專有的「自適應思考」過程,該過程能動態分配運算資源,以便在更難的問題上「思考」更長時間。與之前需要特定提示技巧的迭代不同,Gemini 2.5 Pro 自主應用這種推理,使其在科學研究和複雜數據分析中極其有效。
Gemini 2.5 Pro 的技術榮譽為 Alphabet 昨天發佈的驚人財務報告提供了背景。在 2025 年第四季度財報電話會議上,執行長 Sundar Pichai 強調了其先進 AI 模型與業務增長之間的共生關係。
「我們在 AI 基礎設施和創新方面的投資正在產生直接回報,」Pichai 表示。「Gemini 模型的發佈及隨後的採用,加速了搜尋、YouTube 和雲端業務的增長勢頭。」
與 AI 成功相關的關鍵財務亮點包括:
Google 重新回到排行榜榜首,打破了 OpenAI 或 DeepSeek 等敏捷新創公司將永久超越科技巨頭的論調。
成本效益作為武器:
Gemini 2.5 Pro 最具顛覆性的方面之一是其性價比。報告指出,雖然它的表現優於 OpenAI o3,但其推論成本僅約為 1/10。這種效率可能歸功於 Google 使用了專為 Gemini 架構優化的第六代張量處理單元(TPUs)。對於企業客戶而言,這種價格差異使 Gemini 2.5 Pro 成為高業務量應用的預設選擇,有效地將高智能 AI 商品化。
DeepSeek 因素:
雖然 DeepSeek 憑藉其開源權重模型和高效推理佔據了新聞頭條,但 Gemini 2.5 Pro 整合進 Google 生態系統(Workspace、Android、搜尋)提供了獨立模型難以逾越的「護城河」。LMArena 的結果表明,當易用性和整合度與原始智能共同考慮時,整合式方案正贏得用戶青睞。
截至 2026 年 2 月,AI 等級制度已重新洗牌。Google Gemini 2.5 Pro 成為人類偏好與技術基準雙重驗證的領導者,結束了排行榜頂端的一段劇烈波動期。憑藉 4,000 億美元的營收引擎以及明確的 2026 年藍圖,Google 有效證明了其不僅能在 生成式 AI(Generative AI) 軍備競賽中競爭,還能主導其節奏。
對於開發者和企業來說,資訊很明確:智慧、速度與成本之間的權衡正在消失。Gemini 2.5 Pro 同時實現了這三點,為世界對人工智慧的期待設定了新基準。