Агенты ИИ Claude от Anthropic самостоятельно создают C‑компилятор на 100 000 строк

Агенты Anthropic написали 100 000 строк кода за две недели: Новая эра разработки ПО?

В переломный момент для искусственного интеллекта (Artificial Intelligence, ИИ) и программной инженерии, компания Anthropic сообщила, что команда из 16 автономных ИИ-агентов, работающих на базе еще не выпущенной модели Claude Opus 4.6, успешно создала функциональный компилятор C (C compiler) с нуля всего за две недели. Проект под руководством исследователя Николаса Карлини (Nicholas Carlini) демонстрирует радикальный переход от ИИ как помощника в кодировании к ИИ как автономной инженерной единице.

Эксперимент, подробно описанный в техническом посте в инженерном блоге Anthropic в этот четверг, служит стресс-тестом для новой архитектуры компании «Agent Teams» (Команды агентов). В отличие от предыдущих демонстраций, где одна модель генерирует фрагменты кода, эта инициатива включала несколько экземпляров ИИ, работающих параллельно, управляющих собственными задачами, разрешающих конфликты слияния и ориентирующихся в сложном репозитории без прямого вмешательства человека.

Эксперимент: 16 агентов, один общий мозг

Ядро этого прорыва заключается в способности к координации новой модели Claude Opus 4.6. Anthropic развернула 16 независимых экземпляров агентов, каждый из которых работает в отдельном Docker-контейнере, но вносит вклад в один общий Git-репозиторий.

Вместо того чтобы следовать линейному набору инструкций, эти агенты действовали с высокой степенью автономии. Они определяли необходимые задачи, «блокировали» файлы для предотвращения перезаписи работы друг друга, писали код и отправляли обновления. Система эффективно имитировала небольшую команду разработчиков-людей, работающих в режиме «коллективного разума» (hive mind).

По словам Карлини, агентов не вели за руку. «Я в основном отошел в сторону», — отметил он в отчете. Агенты автономно справлялись с итеративным процессом кодирования, тестирования и отладки. Когда сборка давала сбой, ответственный агент анализировал лог ошибок, формулировал исправление и отправлял правку — цикл, который повторился примерно 2 000 раз в ходе проекта.

Технические достижения и фактор Rust

Полученное программное обеспечение — это компилятор C, полностью написанный на Rust, объемом около 100 000 строк кода. Выбор Rust — языка, известного своей безопасностью памяти и крутой кривой обучения — добавляет сложности этому достижению.

Возможности компилятора не просто теоретические. Он успешно компилирует ядро Linux 6.9 для нескольких архитектур, включая x86, ARM и RISC-V. Чтобы доказать его надежность, созданный ИИ компилятор использовался для сборки крупных проектов с открытым исходным кодом, таких как SQLite, PostgreSQL, Redis и даже классической игры Doom.

Ключевая статистика проекта
Масштаб этой автономной операции лучше всего понятен из необработанных данных, опубликованных Anthropic:

Метрика	Значение	Контекст
Архитектура модели	Claude Opus 4.6	использование фреймворка «Agent Teams»
Конфигурация команды	16 параллельных агентов	Автономная координация через Git
Время разработки	14 дней	Непрерывная работа (24/7)
Объем кода	~100 000 строк	Написано на Rust
Стоимость проекта	~$20 000	На основе использования токенов API
Результаты тестирования	99% успешных тестов	Протестировано с помощью GCC Torture Suite

Роль человека: от кодера к архитектору

Хотя ИИ-агенты писали код, человеческий фактор не устарел — он просто переместился выше по лестнице абстракции. Nicholas Carlini тратил большую часть своего времени не на логику компилятора, а на окружение, окружающее агентов.

Чтобы агенты не галлюцинировали нефункциональным кодом, Карлини пришлось создать почти идеальный набор тестов. «Если верификатор задач не идеален, Claude решит не ту проблему», — объяснил Карлини. Это указывает на будущее программной инженерии, где основным навыком человека становится разработка строгих спецификаций и систем автоматизированной проверки, а не ручная реализация синтаксиса.

Этот сдвиг отражает методологию «Водопад» (Waterfall) из прошлого, где требования исчерпывающе определялись до начала кодирования. В этой парадигме, управляемой ИИ, фаза «кодирования» сжимается с месяцев до дней, но фаза «требований и тестирования» остается критически важной обязанностью человека.

Ограничения и проверка реальностью

Несмотря на впечатляющий заголовок, проект не был лишен недостатков. Компилятор, созданный ИИ, еще не является полноценной заменой GCC или Clang.

Опора на внешние инструменты: Компилятору не хватает собственного ассемблера и компоновщика. Кроме того, он не может генерировать специфический 16-битный код x86, необходимый для загрузки Linux из реального режима; для этой конкретной задачи агенты были вынуждены «хитрить», вызывая GCC.
Эффективность: Сообщается, что код, генерируемый компилятором, менее эффективен, чем у признанных компиляторов. Даже с включенными оптимизациями результат отстает от неоптимизированного базового уровня GCC.
Стоимость: Хотя 20 000 долларов значительно дешевле двухнедельной зарплаты команды из 16 ведущих системных инженеров, это остается высоким барьером для случайных экспериментов.

Последствия для отрасли

Публикация этого тематического исследования компанией Anthropic сигнализирует о движении в сторону «Агентной программной инженерии» (Agentic Software Engineering). Конкуренты, такие как OpenAI и Google, демонстрировали аналогичные возможности, но масштаб параллельной координации в демо «Agent Teams» устанавливает новую планку.

Для индустрии программного обеспечения последствия двояки. С одной стороны, возможность запустить виртуальную команду для выполнения рефакторинга, миграции или генерации шаблонного кода может экспоненциально повысить производительность. С другой стороны, значительны последствия для безопасности при развертывании кода, который ни один человек не прочитал строка за строкой. Как признался Карлини, бывший тестировщик на проникновение, перспектива развертывания непроверенного автономного кода «вызывает у меня беспокойство».

По мере продвижения вглубь 2026 года вопрос уже не в том, может ли ИИ писать сложное ПО, а в том, как нам создать барьеры, чтобы гарантировать, что это ПО безопасно, эффективно и соответствует намерениям человека. Эксперимент Anthropic доказывает, что сама возможность существует; теперь задача заключается в управлении ею.