
자율형 AI 에이전트의 개발은 오랫동안 지속적인 과제인 '오류 누적 문제(compounding error problem)'에 의해 가로막혀 왔습니다. 대규모 언어 모델(LLM)이 복잡하고 다단계인 워크플로우를 실행함에 따라, 단 한 번의 환각(hallucination)이나 논리적 실수가 전체 프로세스를 망칠 수 있으며, 이는 장시간 실행되는 에이전트를 중요한 기업 작업에 신뢰할 수 없게 만듭니다. 이번 주 발표된 주요 돌파구에서, MIT 컴퓨터 과학 및 인공지능 연구소(CSAIL)와 스타트업 Asari AI의 연구원들은 에이전트가 코드를 실행하는 방식을 근본적으로 재구상하여 이러한 신뢰성 위기를 해결하도록 설계된 새로운 프레임워크인 EnCompass를 공개했습니다.
NeurIPS 2025 컨퍼런스에서 발표되고 현재 널리 논의되고 있는 논문에 상세히 기술된 EnCompass는 에이전트 프로그래밍에 "추론 시간 탐색(inference-time search)"이라는 개념을 도입합니다. 이 프레임워크는 에이전트의 핵심 로직을 올바른 결과를 찾기 위해 사용되는 전략과 분리함으로써, 개발자가 전체 코드베이스를 다시 작성하지 않고도 백트래킹(backtracking) 및 병렬 탐색과 같은 정교한 오류 복구 메커니즘을 구현할 수 있도록 합니다.
EnCompass의 의의를 이해하려면 먼저 현대 AI 에이전트의 아키텍처를 이해해야 합니다. 많은 기업용 에이전트는 개발자가 특정 워크플로우(예: "이 코드 번역", "이 재무 보고서 분석", "가설 생성")를 정의하고 LLM이 특정 하위 작업을 수행하도록 호출되는 "제어 프로그램(program-in-control)" 모델에서 작동합니다.
이러한 시스템은 강력하지만 취약합니다. LLM은 비결정적입니다. 즉, 어떤 순간에는 훌륭한 답변을 제공하다가 다음 순간에는 환각을 일으킬 수 있습니다. 수십 개의 단계가 포함된 워크플로우에서 치명적인 오류가 발생할 확률은 확실성에 가까워집니다. 전통적으로 개발자들은 오류를 잡기 위해 수동 루프, 재시도 로직, 조건부 체크와 같은 광범위한 "글루 코드(glue code)"를 작성하여 이를 완화하려 노력해 왔습니다. 그러나 이러한 접근 방식은 종종 오류 처리 로직이 실제 작업 로직보다 커져 버리는, 비대하고 관리하기 어려운 코드베이스를 초래합니다.
EnCompass는 에이전트의 실행을 선형적인 경로가 아닌 탐색 문제(search problem)로 취급함으로써 이를 해결합니다. 모델이 모든 단계를 올바르게 수행하기를 바라는 대신, 프레임워크는 "올바른" 경로가 가능성의 트리(tree) 안에 숨겨져 있음을 인정하고, 그 트리를 효율적으로 탐색할 수 있는 도구를 제공합니다.
EnCompass의 핵심에는 **확률적 천사형 비결정론(Probabilistic Angelic Nondeterminism) (PAN)**이라는 이론적 혁신이 자리 잡고 있습니다. 이 프로그래밍 모델을 통해 개발자는 에이전트가 수행해야 할 단계의 순서인 "무엇(what)"을 해당 단계를 탐색하는 데 사용되는 전략인 "어떻게(how)"와 분리하여 작성할 수 있습니다.
실제로 이는 Python 데코레이터인 @encompass.compile을 통해 달성됩니다. 개발자가 에이전트의 함수를 이 데코레이터로 감싸면, EnCompass는 워크플로우를 탐색 공간으로 컴파일합니다. 코드에서 LLM에 쿼리하는 지점은 "분기점(branchpoints)", 즉 실행이 갈라질 수 있는 갈림길로 취급됩니다.
이러한 분리는 다음과 같은 심오한 이점을 제공합니다:
EnCompass 프레임워크는 인간의 문제 해결 방식을 모방하는 기능을 에이전트에게 부여합니다. 인간 전문가는 막다른 골목에 다다르면 이전 가정으로 돌아가(backtrack) 다른 접근 방식을 시도합니다. EnCompass는 AI 에이전트가 프로그래밍 방식으로 동일한 작업을 수행할 수 있도록 합니다.
이 프레임워크는 여러 탐색 전략을 즉시 지원하므로, 개발자는 사용 사례에 따라 속도, 비용 또는 정확도에 맞게 최적화할 수 있습니다.
표: EnCompass가 지원하는 탐색 전략
| 전략 | 설명 | 최적의 사용 사례 |
|---|---|---|
| 빔 서치(Beam Search) | 매 단계마다 상위 k개의 후보만 유지하며 여러 유망한 경로를 병렬로 탐색합니다. | 폭과 속도 사이의 균형이 필요한 중요한 작업. |
| 몬테카를로 트리 탐색(MCTS) | 시뮬레이션을 사용하여 현재 선택의 장기적인 가치를 추정하며, 가장 유망한 분기에 리소스를 집중합니다. | 초기 결정이 지연된 결과를 초래하는 복잡한 다단계 추론 작업. |
| N개 중 최선 샘플링(Best-of-N Sampling) | 여러 개의 독립적인 솔루션을 생성하고 검증기 점수를 기반으로 가장 좋은 솔루션을 선택합니다. | 코드 생성이나 수학 문제와 같이 출력을 쉽게 검증할 수 있는 작업. |
| 백트래킹(DFS) | 경로를 깊게 탐색하고 실패 조건이 충족되면 이전 상태로 돌아갑니다. | 하나의 유효한 솔루션을 찾는 것으로 충분한 리소스 제한 환경. |
이러한 전략을 표준화함으로써, EnCompass는 Java 코드베이스를 Python으로 번역하려는 에이전트가 까다로운 함수에 대해 여러 번역 옵션을 동시에 탐색할 수 있도록 합니다. 한 경로가 컴파일에 실패하는 코드로 이어지면 에이전트는 이를 버리고 실행 가능한 대안으로 진행할 수 있으며, 이 모든 과정은 런타임 엔진에 의해 자동으로 처리됩니다.
연구원들은 높은 정밀도와 문맥 인식이 필요한 것으로 악명 높은 작업인 Java 저장소의 Python 자동 번역을 포함한 엄격한 벤치마킹을 통해 EnCompass를 검증했습니다.
MIT CSAIL 발표에 상세히 기술된 결과는 놀라웠습니다. EnCompass로 강화된 에이전트는 탐색을 사용하지 않은 표준 에이전트에 비해 번역 정확도가 15%에서 40% 향상되었습니다. 개발자 커뮤니티에 아마도 더 인상적이었을 점은 코드 복잡성의 감소였습니다. EnCompass를 통해 탐색 로직을 구현하는 데는 동일한 기능을 수동으로 구현하는 것보다 약 80% 적은 코드 라인이 필요했습니다.
이러한 효율성 이득은 EnCompass가 강력한 AI 에이전트의 생성을 민주화할 수 있음을 시사합니다. 이전에는 맞춤형 탐색 알고리즘을 구축하는 엔지니어링 오버헤드를 감당할 수 없었던 소규모 팀도 이제 기술 거대 기업이 구축한 것과 맞먹는 신뢰성을 갖춘 에이전트를 배포할 수 있습니다.
기업 부문에서 EnCompass의 등장은 AI 엔지니어링의 성숙을 의미합니다. 우리는 모델이 작동하도록 텍스트를 조정하는 "프롬프트 엔지니어링(prompt engineering)"의 시대에서, 시스템 아키텍처가 신뢰성을 보장하는 "플로우 엔지니어링(flow engineering)" 및 "탐색 엔지니어링(search engineering)"의 시대로 이동하고 있습니다.
MIT CSAIL과 Asari AI의 연구원이자 주저자인 Zhening Li는 EnCompass가 LangChain과 같은 프레임워크를 대체하는 것이 아니라 보완적인 계층이라고 강조했습니다. LangChain이 도구와 프롬프트를 오케스트레이션하는 반면, EnCompass는 의사 결정 궤적을 관리합니다.
기업용 AI를 위한 주요 시사점:
EnCompass의 출시는 "추론 시간 연산(inference-time compute)"으로 향하는 AI 산업의 광범위한 트렌드와 일치합니다. OpenAI의 최근 추론 모델이 답변 전 "생각"하는 데 더 많은 시간을 할애하는 것처럼, EnCompass와 같은 프레임워크를 통해 개발자는 애플리케이션 계층에서 더 높은 신뢰성을 위해 컴퓨팅 리소스를 교환할 수 있습니다.
Asari AI와 MIT 팀은 EnCompass를 통해 에이전트가 발견의 진정한 협력자로서 역할을 수행하는 미래를 구상하고 있습니다. 새로운 화학 화합물을 설계하는 임무를 맡은 에이전트를 상상해 보십시오. EnCompass를 통한 MCTS를 사용하여 에이전트는 수천 개의 잠재적 분자 구조를 탐색하고, 합성 경로가 불가능한 것으로 판명되면 백트래킹하며, 인간 과학자에게는 가장 실행 가능한 후보만을 제시할 수 있습니다.
오류 누적 문제를 효과적으로 해결함으로써, EnCompass는 AI 에이전트를 실험적인 장난감에서 중요한 프로덕션 시스템으로 끌어올리는 데 필요한 핵심 인프라가 될 수 있습니다.