Anthropic 的 Claude AI 代理自主構建 10 萬行 C 編譯器

Anthropic 的代理在兩週內編寫了 10 萬行程式碼：軟體開發的新時代？

在人工智慧和軟體工程的一個分水嶺時刻，Anthropic 透露，由尚未發布的 Claude Opus 4.6 模型提供支援的 16 個自主人工智慧代理（AI agents）團隊，在短短兩週內從零開始成功構建了一個功能完備的 C 編譯器。該專案由研究員 Nicholas Carlini 領導，展示了從 AI 作為編碼助手到 AI 作為自主工程單元的根本轉變。

該實驗在本週四 Anthropic 工程部落格的一篇技術文章中進行了詳細介紹，作為該公司新「Agent Teams」架構的壓力測試。與以往由單個模型生成程式碼片段的演示不同，這項計劃涉及多個 AI 實例並行工作、管理自己的任務、解決合併衝突，並在沒有人類直接干預的情況下導航複雜的存儲庫。

實驗：16 個代理，一個共享大腦

這一突破的核心在於新 Claude Opus 4.6 模型的協調能力。Anthropic 部署了 16 個獨立的代理實例，每個實例都在單獨的 Docker 容器中運行，但共同貢獻於一個單一、共享的 Git 存儲庫。

這些代理並非遵循線性的指令集，而是以高度自主的方式運作。它們識別必要的任務，「鎖定」文件以防止覆蓋彼此的工作，編寫程式碼並推送更新。該系統有效地模擬了一個以「蜂群思維（hive mind）」能力運作的人類開發者小團隊。

根據 Carlini 的說法，這些代理並非手把手指導。「我基本上是走開了，」他在報告中指出。代理自主處理編碼、測試和除錯的迭代過程。當建置失敗時，負責的代理會分析錯誤日誌，制定修復方案並推送修正——在專案過程中，這個循環重複了約 2,000 次。

技術成就與「Rust」因素

由此產生的軟體是一個完全用 Rust 編寫的 C 編譯器，跨越約 10 萬行程式碼。選擇 Rust——一種以記憶體安全性（memory safety）和陡峭學習曲線著稱的語言——為這項壯舉增添了一層複雜性。

該編譯器的能力不僅僅是理論上的。它成功地在包括 x86、ARM 和 RISC-V 在內的多種架構上編譯了 Linux 6.9 核心。為了證明其魯棒性，這款 AI 生成的編譯器被用於構建主要的開源專案，如 SQLite、PostgreSQL、Redis，甚至是經典遊戲《毀滅戰士》（Doom）。

關鍵專案數據
透過 Anthropic 發布的原始數據，可以更好地理解這一自主運作的規模：

指標	值	上下文
模型架構	Claude Opus 4.6	利用「Agent Teams」框架
團隊配置	16 個並行代理	通過 Git 進行自主協調
開發時間	14 天	連續運作 (24/7)
程式碼量	約 100,000 行	使用 Rust 編寫
專案成本	約 $20,000	基於 API token 使用量
測試性能	99% 通過率	針對 GCC Torture Suite 進行測試

人類角色：從編碼員到架構師

雖然 AI 代理編寫了程式碼，但人類元素並未過時——它只是上升到了更高的抽象層。 Nicholas Carlini 大部分時間不是花在編譯器邏輯上，而是花在圍繞代理的「環境」上。

為了確保代理不會幻覺出功能不全的程式碼，Carlini 必須構建一個近乎完美的測試套件。「如果任務驗證器不完美，Claude 就會解決錯誤的問題，」Carlini 解釋道。這暗示了軟體工程的一個未來，即人類的主要技能將變成嚴格規範和自動化驗證系統的設計，而不是語法的手動實現。

這種轉變反映了過去的「瀑布式（Waterfall）」方法論，即在編碼開始前對需求進行詳盡定義。在這種 AI 驅動的範式中，「編碼」階段從數月縮短到數天，但「需求和測試」階段仍然是人類的一項關鍵責任。

局限性與現實檢查

儘管標題令人印象深刻，但該專案並非完美無缺。AI 生成的編譯器目前還不能完全替代 GCC 或 Clang。

依賴外部工具： 該編譯器缺少自己的彙編器（assembler）和連結器（linker）。此外，它無法生成將 Linux 從實模式（real mode）啟動所需的特定 16 位元 x86 程式碼；對於這項特定任務，代理被迫通過調用 GCC 來「作弊」。
效率： 據報導，編譯器生成的程式碼效率不如成熟的編譯器。即使啟用了優化，其輸出仍落後於 GCC 未優化的基準線。
成本： 雖然 20,000 美元比 16 名資深系統工程師兩週的工資便宜得多，但對於隨意性的實驗來說，這仍然是一個很高的門檻。

行業影響

Anthropic 發布的這一案例研究標誌著向「代理化軟體工程（Agentic Software Engineering）」的轉型。OpenAI 和 Google 等競爭對手也展示了類似的能力，但在「Agent Teams」演示中並行協調的規模設定了新的基準。

對於軟體行業來說，其影響是雙刃劍。一方面，建立虛擬團隊來處理重構、遷移或樣板程式碼生成的能力可以成倍提高生產力。另一方面，部署沒有人逐行閱讀過的程式碼的安全影響是巨大的。正如前滲透測試員 Carlini 所承認的，部署未經驗證的自主程式碼的前景「讓我感到不安」。

隨著我們進入 2026 年，問題不再是 AI 是否能編寫複雜的軟體，而是我們如何建立護欄來確保軟體安全、高效並符合人類意圖。Anthropic 的實驗證明了原始能力已經具備；現在的挑戰在於如何駕馭它。