Anthropic の Claude AI エージェントが自律的に 10 万行の C コンパイラを構築

Anthropicのエージェントが2週間で10万行のコードを記述：ソフトウェア開発の新時代か？

人工知能（AI）とソフトウェアエンジニアリングにおける重大な局面において、Anthropicは、未発表のClaude Opus 4.6モデルを搭載した16の自律型エージェント（Agents）からなるチームが、わずか2週間で機能的なCコンパイラをゼロから構築することに成功したと発表しました。研究者のNicholas Carlini氏が率いるこのプロジェクトは、AIがコーディングアシスタントから自律的なエンジニアリングユニットへと劇的に変化したことを示しています。

今週木曜日にAnthropicのエンジニアリングブログに掲載された技術記事で詳述されたこの実験は、同社の新しい「Agent Teams」アーキテクチャのストレステストとしての役割を果たしています。単一のモデルがコードの断片を生成する以前のデモンストレーションとは異なり、この取り組みでは複数のAIインスタンスが並行して動作し、自らのタスクを管理し、マージの競合を解決し、人間の直接的な介入なしに複雑なリポジトリを操作しました。

実験：16のエージェント、一つの共有された頭脳

この画期的な進歩の核心は、新しい**Claude Opus 4.6**モデルの調整能力にあります。Anthropicは、それぞれが独立したDockerコンテナで動作し、単一の共有Gitリポジトリに貢献する16の独立したエージェントインスタンスをデプロイしました。

これらのエージェントは、線形な指示セットに従うのではなく、高度な自律性を持って動作しました。彼らは必要なタスクを特定し、互いの作業を上書きしないようにファイルを「ロック」し、コードを記述し、更新をプッシュしました。このシステムは、実質的に「集合知（hive mind）」として機能する小規模な人間開発者チームをシミュレートしました。

Carlini氏によると、エージェントは手取り足取り教えられたわけではありません。「私はほとんど席を外していました」と彼はレポートの中で述べています。エージェントは、コーディング、テスト、デバッグの反復プロセスを自律的に処理しました。ビルドが失敗すると、担当のエージェントがエラーログを分析し、修正案を作成して修正をプッシュしました。このループは、プロジェクトの過程で約2,000回繰り返されました。

技術的成果と「Rust」要因

完成したソフトウェアは、すべてRustで書かれた、約10万行のコードに及ぶCコンパイラです。メモリの安全性（Memory Safety）と急峻な学習曲線で知られる言語であるRustを選択したことは、この偉業にさらなる複雑さを加えています。

コンパイラの能力は単なる理論上のものではありません。x86、ARM、RISC-Vを含む複数のアーキテクチャにわたって、Linux 6.9カーネルのコンパイルに成功しています。その堅牢性を証明するために、AIが生成したコンパイラを使用して、SQLite、PostgreSQL、Redis、さらにはクラシックなゲームであるDoomなどの主要なオープンソースプロジェクトが構築されました。

主要プロジェクト統計
この自律運用の規模は、Anthropicによって公開された生データを通じて最もよく理解できます：

指標	値	コンテキスト
モデルアーキテクチャ	Claude Opus 4.6	「Agent Teams」フレームワークを利用
チーム構成	16の並列エージェント	Gitによる自律的な調整
開発期間	14日間	連続稼働（24時間365日）
コード量	約100,000行	Rustで記述
プロジェクトコスト	約20,000ドル	APIトークンの使用量に基づく
テストパフォーマンス	99%の合格率	GCC Torture Suiteでテスト済み

人間の役割：コーダーからアーキテクトへ

AIエージェントがコードを記述する一方で、人間の要素は廃止されたわけではなく、抽象化の段階が上がっただけでした。Nicholas Carlini氏は、時間の大部分をコンパイラのロジックではなく、エージェントを取り巻く「環境」に費やしました。

エージェントが機能しないコードをハルシネーション（Hallucination）として生成しないようにするために、Carlini氏は完璧に近いテストスイートを構築する必要がありました。「タスク検証器が完璧でなければ、Claudeは間違った問題を解決してしまいます」とCarlini氏は説明しました。これは、ソフトウェアエンジニアリングの未来において、人間の主要なスキルが構文の手動実装ではなく、厳格な仕様の設計と自動検証システムの構築になることを示唆しています。

この変化は、コーディングが始まる前に要件が徹底的に定義されていた過去の「ウォーターフォール（Waterfall）」手法を反映しています。このAI主導のパラダイムでは、「コーディング」フェーズは数か月から数日に短縮されますが、「要件とテスト」フェーズは依然として重要な人間の責任として残ります。

制限事項と現実的な課題

印象的なヘッドラインにもかかわらず、プロジェクトには欠点もありました。AIが生成したコンパイラは、まだGCCやClangの完全な代替品ではありません。

外部ツールへの依存： コンパイラには独自のアセンブラとリンカがありません。さらに、Linuxをリアルモードから起動するために必要な特定の16ビットx86コードを生成できません。この特定のタスクについては、エージェントはGCCを呼び出すことで「ズル」をせざるを得ませんでした。
効率： コンパイラによって生成されたコードは、確立されたコンパイラのものよりも効率が低いと報告されています。最適化を有効にしても、出力はGCCの最適化されていないベースラインに遅れをとっています。
コスト： 20,000ドルは、シニアシステムエンジニア16人のチームの2週間の給与よりも大幅に安いものの、カジュアルな実験にとっては依然として高いハードルです。

業界への影響

Anthropicによるこのケーススタディの発表は、「エージェンティック・ソフトウェアエンジニアリング（Agentic Software Engineering）」への移行を予感させます。OpenAIやGoogleなどの競合他社も同様の能力を実証していますが、「Agent Teams」デモにおける並列調整の規模は、新たなベンチマークを確立しました。

ソフトウェア業界にとって、その影響は諸刃の剣です。一方で、リファクタリング、移行、またはボイラープレートの生成を処理するために仮想チームを立ち上げる能力は、生産性を飛躍的に向上させる可能性があります。他方で、人間が行ごとに読んでいないコードをデプロイすることのセキュリティ上の影響は重大です。元ペネトレーションテスターであるCarlini氏が認めたように、検証されていない自律的なコードをデプロイするという見通しは、「私を不安にさせます」。

2026年が進むにつれ、もはや問題はAIが複雑なソフトウェアを書けるかどうかではなく、そのソフトウェアが安全で効率的であり、人間の意図に沿ったものであることを保証するためのガードレール（Guardrails）をどのように構築するかです。Anthropicの実験は、生の能力が備わっていることを証明しました。現在の課題は、それを制御する仕組みにあります。