OpenAI 公布 GPT-5.3-Codex：首款協助自我構建的自我改進 AI 模型，標誌人工智慧新時代

歷史性的飛躍：OpenAI 發表首款自我構建的 AI——GPT-5.3-Codex

這是人工智能（Artificial Intelligence，AI）產業的決定性時刻，OpenAI 正式發布了 GPT-5.3-Codex，這款模型標誌著從靜態軟體開發向遞歸自我改進（Recursive Self-Improvement）的轉型。於 2026 年 2 月 5 日發布，此次新迭代不僅是處理能力的升級，更是 AI 模型構思、訓練和部署方式的根本性轉變。

OpenAI 首次證實，AI 模型在其自身的創建過程中發揮了關鍵作用。工程團隊積極使用 GPT-5.3-Codex 來調試其自身的訓練運行、管理部署基礎架構並診斷複雜的評估結果。這種「代理（Agentic）」能力——即自主採取行動以實現複雜目標的能力——預示著 AI 系統加速自身演進的新時代已經到來。

遞歸自我改進：創新背後的引擎

GPT-5.3-Codex 最重大的突破在於其開發方法論。與以往由人類工程師精心手動編碼訓練 harness（訓練架構）的各個方面不同，GPT-5.3-Codex 被整合到了工程工作流本身。

OpenAI 的工程團隊表示，該模型識別上下文渲染錯誤以及根治人類開發人員難以隔離的低快取命中率的能力讓他們感到「震驚」。透過利用模型的早期檢查點（Checkpoints）來完善最終產品，OpenAI 成功展示了遞歸自我改進的實際應用——這一概念長期以來被理論化為奇點（Singularity）的前兆。

「Codex 團隊使用早期版本來調試其自身的訓練、管理其自身的部署，並診斷測試結果和評估，」OpenAI 在其公告中表示。這種遞歸循環使模型能夠針對訓練它的 Nvidia GB200 NVL72 系統優化其架構，以以前無法實現的方式最大化效率。

性能指標與代理能力

GPT-5.3-Codex 不僅更聰明，而且效率顯著提高。與其前身 GPT-5.2-Codex 相比，該模型的速度提升了 25%，同時在某些輸出中僅需約一半的 Token（權杖）量。這種效率對於企業採用至關重要，因為推理成本仍然是擴大規模的障礙。

該模型的能力遠超編寫 Python 腳本或調試 JavaScript。OpenAI 將 GPT-5.3-Codex 描述為一款「前沿模型（Frontier Model）」，能夠執行以往僅限於人類專業人士的任務，例如生成投影片、管理複雜的試算表以及監督整個網頁開發生命週期。

基準測試優勢：Terminal-Bench 2.0

為了量化這些收益，OpenAI 使用了 Terminal-Bench 2.0，這是評估代理編碼能力的業界標準基準測試。結果突顯了在準確性和問題解決自主性方面的巨大世代飛躍。

表 1：領先編碼模型的性能比較

指標	GPT-5.2-Codex（前代）	GPT-5.3-Codex（新款）
Terminal-Bench 2.0 準確度	64.7%	77.3%
推理速度	基準	+25% 更快
Token 效率	標準	所需 Token 減少約 50%
代理範圍	程式碼審查與編寫	完整軟體生命週期管理

Terminal-Bench 2.0 從 64.7% 到 77.3% 的跳躍代表了一個關鍵門檻。這表明該模型現在可以處理模糊的、多步驟的編碼環境，其成功率在特定背景下可與資深人類開發人員相媲美。

戰略擴張：OpenAI Frontier 與企業整合

GPT-5.3-Codex 的發布恰逢 OpenAI Frontier 的推出，這是一個旨在為企業環境編排 AI 代理團隊的新平台。這一戰略調整表明，OpenAI 正超越聊天機器人範式，邁向「AI 員工」在企業基礎架構內協作的未來。

隨著最近 macOS 版 Codex 應用程式的發布，開發人員現在可以將 GPT-5.3-Codex 直接整合到其本地工作流中。這使得模型能夠與本地文件和開發環境進行交互，進一步模糊了外部工具與協作團隊成員之間的界限。

主導地位之爭：OpenAI 對決 Anthropic

GPT-5.3-Codex 的發布與競爭實驗室 Anthropic 推出 Claude Opus 4.6 發生在同一天。這種同步發布突顯了推動該領域發展的激烈競爭。

雖然 OpenAI 專注於「自我改進」的敘事和原始速度，但 Anthropic 的 Claude Opus 4.6 將自己定位為更具「思考性」和自主性的規劃者，旨在以最少的人類干預執行長週期任務。產業分析師指出，雖然 GPT-5.3-Codex 在交互協作和速度方面表現出色（充當高效的結對程式設計師），但 Claude Opus 4.6 旨在成為一名自主研究員。

這種哲學上的分歧——交互式加速與自主式沉思——根據工作流需求為開發人員提供了不同的選擇。然而，OpenAI 對遞歸自我改進的展示可能使其在未來迭代的速度上具有獨特優勢。

結論：AI 開發的新標準

GPT-5.3-Codex 的推出是 AI 產業的分水嶺。透過成功利用該模型來構建自身，OpenAI 證明了遞歸改進不再是科幻小說，而是切實的工程現實。

隨著開發人員和企業開始透過新的 API 和 Frontier 平台部署 GPT-5.3-Codex，重點將轉向這些自我改進能力如何轉化為現實世界的生產力。憑藉顯著更高的基準測試分數以及與專業工作流的更深層次整合， GPT-5.3-Codex 為人工智能的可能性樹立了一個強大的新標準。

歷史性的飛躍：OpenAI 發表首款自我構建的 AI——GPT-5.3-Codex

遞歸自我改進：創新背後的引擎

性能指標與代理能力

基準測試優勢：Terminal-Bench 2.0

戰略擴張：OpenAI Frontier 與企業整合

主導地位之爭：OpenAI 對決 Anthropic

結論：AI 開發的新標準

ex ads 202603311112

OpenAI 公布 GPT-5.3-Codex：首款協助自我構建的自我改進 AI 模型，標誌人工智慧新時代

OpenAI 發布了 GPT-5.3-Codex，這是首個協助自身構建的 AI 模型，標誌著在遞歸式自我改進與 AI 發展上的突破。

歷史性的飛躍：OpenAI 發表首款自我構建的 AI——GPT-5.3-Codex

遞歸自我改進：創新背後的引擎

性能指標與代理能力

基準測試優勢：Terminal-Bench 2.0

戰略擴張：OpenAI Frontier 與企業整合

主導地位之爭：OpenAI 對決 Anthropic

結論：AI 開發的新標準

Related AI News

OpenAI 為免費與 Go 等級用戶推出 ChatGPT 廣告方案

Google DeepMind 執行長 Demis Hassabis 質疑 OpenAI 及早在 ChatGPT 上投放廣告的做法

OpenAI 重組領導層以奪回企業 AI 市場份額

ex ads 202603311112

OpenAI 公布 GPT-5.3-Codex：首款協助自我構建的自我改進 AI 模型，標誌人工智慧新時代

OpenAI 發布了 GPT-5.3-Codex，這是首個協助自身構建的 AI 模型，標誌著在遞歸式自我改進與 AI 發展上的突破。