Anthropic의 Claude AI 에이전트가 자율적으로 10만 줄 C 컴파일러를 구축

Anthropic의 에이전트가 2주 만에 10만 줄의 코드를 작성하다: 소프트웨어 개발의 새로운 시대인가?

인공지능(AI)과 소프트웨어 엔지니어링(Software Engineering)의 역사적 전환점에서, Anthropic은 아직 출시되지 않은 Claude Opus 4.6 모델로 구동되는 16개의 자율 AI 에이전트 팀이 단 2주 만에 처음부터 작동 가능한 C 컴파일러를 성공적으로 구축했다고 공개했습니다. 연구원 니콜라스 칼리니(Nicholas Carlini)가 주도한 이 프로젝트는 코딩 보조 도구(Coding assistant)로서의 AI에서 자율적인 엔지니어링 단위(Autonomous engineering unit)로서의 AI로의 근본적인 변화를 보여줍니다.

이번 주 목요일 Anthropic의 엔지니어링 블로그에 자세히 설명된 이 실험은 회사의 새로운 "에이전트 팀 (Agent Teams)" 아키텍처를 위한 스트레스 테스트 역할을 합니다. 단일 모델이 코드 스니펫을 생성하던 이전의 시연과 달리, 이번 이니셔티브에는 병렬로 작업하고, 자체 작업을 관리하며, 머지 충돌(Merge conflicts)을 해결하고, 직접적인 인간의 개입 없이 복잡한 리포지토리를 탐색하는 여러 AI 인스턴스가 참여했습니다.

실험: 16개의 에이전트, 하나의 공유된 두뇌

이 획기적인 성과의 핵심은 새로운 Claude Opus 4.6 모델의 조율 능력에 있습니다. Anthropic은 각각 별도의 Docker 컨테이너에서 실행되지만 하나의 공유 Git 리포지토리에 기여하는 16개의 독립적인 에이전트 인스턴스를 배포했습니다.

이 에이전트들은 선형적인 명령 세트를 따르는 대신 높은 수준의 자율성을 가지고 작동했습니다. 이들은 필요한 작업을 식별하고, 서로의 작업을 덮어쓰는 것을 방지하기 위해 파일을 "잠금(Locked)" 처리하고, 코드를 작성하고, 업데이트를 푸시했습니다. 이 시스템은 "하이브 마인드(Hive mind)" 역량으로 작업하는 소규모 인간 개발자 팀을 효과적으로 시뮬레이션했습니다.

칼리니에 따르면 에이전트들은 수동적으로 안내받지 않았습니다. 그는 보고서에서 "나는 거의 자리를 비웠다"고 언급했습니다. 에이전트들은 코딩, 테스트 및 디버깅의 반복적인 과정을 자율적으로 처리했습니다. 빌드가 실패하면 담당 에이전트가 오류 로그를 분석하고 해결책을 마련하여 수정을 푸시했으며, 이 루프는 프로젝트 과정 동안 약 2,000회 반복되었습니다.

기술적 성과와 "Rust" 요인

결과물인 소프트웨어는 약 10만 줄의 코드로 구성되었으며, 전체가 Rust로 작성된 C 컴파일러 (C compiler)입니다. 메모리 안전성과 가파른 학습 곡선으로 알려진 언어인 Rust를 선택한 것은 이 성과에 복잡성을 더합니다.

이 컴파일러의 기능은 단지 이론적인 수준이 아닙니다. x86, ARM, RISC-V를 포함한 여러 아키텍처에서 Linux 6.9 커널을 성공적으로 컴파일합니다. 견고함을 입증하기 위해, 이 AI 생성 컴파일러는 SQLite, PostgreSQL, Redis 및 고전 게임인 둠(Doom)과 같은 주요 오픈 소스 프로젝트를 빌드하는 데 사용되었습니다.

주요 프로젝트 통계
이 자율 운영의 규모는 Anthropic에서 발표한 원시 데이터를 통해 가장 잘 이해할 수 있습니다.

지표	값	맥락
모델 아키텍처	Claude Opus 4.6	"에이전트 팀 (Agent Teams)" 프레임워크 활용
팀 구성	16개 병렬 에이전트	Git을 통한 자율 조율
개발 기간	14일	지속적인 운영 (24/7)
코드 양	~100,000줄	Rust로 작성됨
프로젝트 비용	~$20,000	API 토큰 사용량 기준
테스트 성능	99% 통과율	GCC Torture Suite 기준 테스트 완료

인간의 역할: 코더에서 설계자로

AI 에이전트가 코드를 작성하는 동안 인간 요소는 사라진 것이 아니라 추상화 단계가 올라갔을 뿐입니다. 니콜라스 칼리니 (Nicholas Carlini)는 대부분의 시간을 컴파일러 로직이 아닌 에이전트를 둘러싼 환경을 조성하는 데 보냈습니다.

에이전트가 작동하지 않는 코드를 환각(Hallucinate)하지 않도록 하기 위해, 칼리니는 거의 완벽한 테스트 스위트를 구축해야 했습니다. 칼리니는 "작업 검증기(Task verifier)가 완벽하지 않으면 Claude는 잘못된 문제를 해결할 것"이라고 설명했습니다. 이는 인간의 주요 기술이 구문의 수동 구현보다는 엄격한 사양 설계와 자동화된 검증 시스템 구축이 되는 소프트웨어 엔지니어링의 미래를 시사합니다.

이러한 변화는 코딩이 시작되기 전에 요구 사항을 철저히 정의했던 과거의 "폭포수(Waterfall)" 방법론을 연상시킵니다. 이 AI 주도 패러다임에서 "코딩" 단계는 수개월에서 수일로 압축되지만, "요구 사항 및 테스트" 단계는 여전히 인간의 중요한 책임으로 남습니다.

한계 및 현실 점검

인상적인 헤드라인에도 불구하고 이 프로젝트에 결함이 없는 것은 아닙니다. AI가 생성한 컴파일러는 아직 GCC나 Clang을 바로 대체할 수 있는 수준은 아닙니다.

외부 도구에 대한 의존도: 이 컴파일러에는 자체 어셈블러와 링커가 부족합니다. 또한, 리얼 모드에서 리눅스를 부팅하는 데 필요한 특정 16비트 x86 코드를 생성할 수 없으며, 이 특정 작업을 위해 에이전트들은 GCC를 호출하는 방식으로 "치팅"을 해야 했습니다.
효율성: 컴파일러에 의해 생성된 코드는 기존 컴파일러의 코드보다 효율성이 떨어지는 것으로 보고되었습니다. 최적화를 활성화하더라도 출력물은 GCC의 최적화되지 않은 기준선보다 뒤처집니다.
비용: 20,000달러는 16명의 시니어 시스템 엔지니어 팀의 2주 급여보다 훨씬 저렴하지만, 일상적인 실험으로서는 여전히 높은 장벽입니다.

업계에 미치는 영향

Anthropic의 이번 사례 연구 발표는 "에이전틱 소프트웨어 엔지니어링 (Agentic Software Engineering)"으로의 이동을 의미합니다. OpenAI와 Google과 같은 경쟁업체들도 유사한 능력을 시연했지만, "에이전트 팀" 데모에서 보여준 병렬 조율의 규모는 새로운 기준을 세웠습니다.

소프트웨어 업계에 있어 그 영향은 양날의 검과 같습니다. 한편으로는 리팩토링, 마이그레이션 또는 보일러플레이트(Boilerplate) 생성을 처리하기 위해 가상 팀을 가동하는 능력이 생산성을 기하급수적으로 높일 수 있습니다. 다른 한편으로는 인간이 한 줄 한 줄 읽지 않은 코드를 배포하는 데 따른 보안상의 영향이 상당합니다. 전직 침투 테스터였던 칼리니가 인정했듯이, 검증되지 않은 자율 코드를 배포할 가능성은 "불안한 마음이 들게 합니다."

2026년으로 더 나아가면서, 이제 질문은 AI가 복잡한 소프트웨어를 작성할 수 있는지 여부가 아니라, 어떻게 하면 그 소프트웨어가 안전하고 효율적이며 인간의 의도와 일치하도록 가드레일을 구축할 것인가 하는 점입니다. Anthropic의 실험은 원천적인 능력이 이미 갖춰졌음을 증명합니다. 이제 과제는 이를 어떻게 제어하고 활용하느냐에 달려 있습니다.