
在人工智慧和軟體工程的一個分水嶺時刻,Anthropic 透露,由尚未發布的 Claude Opus 4.6 模型提供支援的 16 個自主人工智慧代理(AI agents)團隊,在短短兩週內從零開始成功構建了一個功能完備的 C 編譯器。該專案由研究員 Nicholas Carlini 領導,展示了從 AI 作為編碼助手到 AI 作為自主工程單元的根本轉變。
該實驗在本週四 Anthropic 工程部落格的一篇技術文章中進行了詳細介紹,作為該公司新「Agent Teams」架構的壓力測試。與以往由單個模型生成程式碼片段的演示不同,這項計劃涉及多個 AI 實例並行工作、管理自己的任務、解決合併衝突,並在沒有人類直接干預的情況下導航複雜的存儲庫。
這一突破的核心在於新 Claude Opus 4.6 模型的協調能力。Anthropic 部署了 16 個獨立的代理實例,每個實例都在單獨的 Docker 容器中運行,但共同貢獻於一個單一、共享的 Git 存儲庫。
這些代理並非遵循線性的指令集,而是以高度自主的方式運作。它們識別必要的任務,「鎖定」文件以防止覆蓋彼此的工作,編寫程式碼並推送更新。該系統有效地模擬了一個以「蜂群思維(hive mind)」能力運作的人類開發者小團隊。
根據 Carlini 的說法,這些代理並非手把手指導。「我基本上是走開了,」他在報告中指出。代理自主處理編碼、測試和除錯的迭代過程。當建置失敗時,負責的代理會分析錯誤日誌,制定修復方案並推送修正——在專案過程中,這個循環重複了約 2,000 次。
由此產生的軟體是一個完全用 Rust 編寫的 C 編譯器,跨越約 10 萬行程式碼。選擇 Rust——一種以記憶體安全性(memory safety)和陡峭學習曲線著稱的語言——為這項壯舉增添了一層複雜性。
該編譯器的能力不僅僅是理論上的。它成功地在包括 x86、ARM 和 RISC-V 在內的多種架構上編譯了 Linux 6.9 核心。為了證明其魯棒性,這款 AI 生成的編譯器被用於構建主要的開源專案,如 SQLite、PostgreSQL、Redis,甚至是經典遊戲《毀滅戰士》(Doom)。
關鍵專案數據
透過 Anthropic 發布的原始數據,可以更好地理解這一自主運作的規模:
| 指標 | 值 | 上下文 |
|---|---|---|
| 模型架構 | Claude Opus 4.6 | 利用 「Agent Teams」框架 |
| 團隊配置 | 16 個並行代理 | 通過 Git 進行自主協調 |
| 開發時間 | 14 天 | 連續運作 (24/7) |
| 程式碼量 | 約 100,000 行 | 使用 Rust 編寫 |
| 專案成本 | 約 $20,000 | 基於 API token 使用量 |
| 測試性能 | 99% 通過率 | 針對 GCC Torture Suite 進行測試 |
雖然 AI 代理編寫了程式碼,但人類元素並未過時——它只是上升到了更高的抽象層。 Nicholas Carlini 大部分時間不是花在編譯器邏輯上,而是花在圍繞代理的「環境」上。
為了確保代理不會幻覺出功能不全的程式碼,Carlini 必須構建一個近乎完美的測試套件。「如果任務驗證器不完美,Claude 就會解決錯誤的問題,」Carlini 解釋道。這暗示了軟體工程的一個未來,即人類的主要技能將變成嚴格規範和自動化驗證系統的設計,而不是語法的手動實現。
這種轉變反映了過去的「瀑布式(Waterfall)」方法論,即在編碼開始前對需求進行詳盡定義。在這種 AI 驅動的範式中,「編碼」階段從數月縮短到數天,但「需求和測試」階段仍然是人類的一項關鍵責任。
儘管標題令人印象深刻,但該專案並非完美無缺。AI 生成的編譯器目前還不能完全替代 GCC 或 Clang。
Anthropic 發布的這一案例研究標誌著向「代理化軟體工程(Agentic Software Engineering)」的轉型。OpenAI 和 Google 等競爭對手也展示了類似的能力,但在「Agent Teams」演示中並行協調的規模設定了新的基準。
對於軟體行業來說,其影響是雙刃劍。一方面,建立虛擬團隊來處理重構、遷移或樣板程式碼生成的能力可以成倍提高生產力。另一方面,部署沒有人逐行閱讀過的程式碼的安全影響是巨大的。正如前滲透測試員 Carlini 所承認的,部署未經驗證的自主程式碼的前景「讓我感到不安」。
隨著我們進入 2026 年,問題不再是 AI 是否 能編寫複雜的軟體,而是我們如何 建立護欄來確保軟體安全、高效並符合人類意圖。Anthropic 的實驗證明了原始能力已經具備;現在的挑戰在於如何駕馭它。