
自主 AI 代理(Autonomous AI agents)的開發長期以來一直受到一個持久挑戰的阻礙:複合錯誤問題。隨著大型語言模型(LLMs)執行複雜的多步工作流,單次幻覺(hallucination)或邏輯失誤都可能使整個過程偏離軌道,導致長時間運行的代理在關鍵企業任務中變得不可靠。在下週宣布的一項重大突破中,來自 MIT 計算機科學與人工智慧實驗室(CSAIL)和新創公司 Asari AI 的研究人員展示了 EnCompass,這是一個旨在透過從根本上重新想像代理執行程式碼的方式,來解決這一可靠性危機的新穎框架。
EnCompass 在 NeurIPS 2025 會議上發表,並在一篇廣泛討論的論文中進行了詳細闡述,該框架將「推論時間搜索(inference-time search)」的概念引入至代理程式編寫中。藉由將代理的核心邏輯與用於搜索正確結果的策略解耦,該框架允許開發者實現複雜的錯誤恢復機制——例如回溯和並行探索——而無需重寫其整個代碼庫。
要理解 EnCompass 的重要性,必須首先了解現代 AI 代理的架構。許多企業級代理運行在「程式控制(program-in-control)」模型上,開發者定義一個特定的工作流(例如「翻譯這段程式碼」、「分析這份財務報告」、「生成一個假設」),並調用 LLM 來執行特定的子任務。
雖然功能強大,但這些系統非常脆弱。LLM 具有非決定性;它們可能在前一刻提供精闢的答案,而在下一刻產生幻覺。在涉及數十個步驟的工作流中,發生致命錯誤的機率趨近於必然。傳統上,開發者試圖透過編寫大量的「膠水程式碼(glue code)」來緩解這種情況——手動循環、重試邏輯和條件檢查以捕獲錯誤。然而,這種方法通常會導致代碼庫臃腫且難以管理,錯誤處理邏輯甚至超過了實際的任務邏輯。
EnCompass 透過將代理的執行視為一個搜索問題而非線性路徑來解決此問題。 框架並非寄望於模型在每一步都正確,而是承認「正確」的路徑隱藏在可能性樹中,並提供了高效導航該樹的工具。
EnCompass 的核心在於一項名為**概率天使非決定論(Probabilistic Angelic Nondeterminism)(PAN)**的理論創新。這種編程模型允許開發者將「要做什麼」(代理應執行的步驟序列)與「如何做」(用於導航這些步驟的策略)分開編寫。
在實踐中,這是透過 Python 裝飾器 @encompass.compile 實現的。當開發者使用此裝飾器包裹其代理函數時,EnCompass 會將工作流編譯為一個搜索空間。程式碼中查詢 LLM 的點被視為「分支點」——執行可以分叉的道路分歧點。
這種分離提供了深遠的好處:
EnCompass 框架 賦予了代理模仿人類解決問題的能力。當人類專家遇到死胡同時,他們會回溯到之前的假設並嘗試不同的方法。EnCompass 使 AI 代理能夠以程式化的方式執行相同的操作。
該框架開箱即用地支持多種搜索策略,允許開發者根據使用場景優化速度、成本或準確性。
表格:EnCompass 支持的搜索策略
| 策略 | 描述 | 最佳使用場景 |
|---|---|---|
| 束搜索(Beam Search) | 並行探索多條有希望的路徑,在每一步僅保留前 k 個候選者。 | 需要在廣度與速度之間取得平衡的高風險任務。 |
| 蒙地卡羅樹搜尋(Monte Carlo Tree Search, MCTS) | 使用模擬來估計當前選擇的長期價值,將資源集中在最有希望的分支上。 | 複雜的多步推理任務,其中早期決策具有延遲影響。 |
| N 選一取樣(Best-of-N Sampling) | 生成多個獨立的解決方案,並根據驗證器評分選擇最佳方案。 | 具有易於驗證輸出的任務,例如程式碼生成或數學問題。 |
| 回溯(Backtracking, DFS) | 深入探索一條路徑,如果滿足失敗條件,則返回到之前的狀態。 | 資源受限的環境,其中找到「一個」有效解決方案即足夠。 |
藉由將這些策略標準化,EnCompass 允許嘗試將 Java 代碼庫翻譯為 Python 的代理同時探索棘手函數的多個翻譯選項。如果一條路徑導致程式碼無法編譯,代理可以丟棄它並繼續使用可行的替代方案,這一切都由運行時引擎自動處理。
研究人員透過嚴格的基準測試驗證了 EnCompass,其中最著名的是一個涉及將 Java 儲存庫自動翻譯為 Python 的案例研究——這項任務以需要高精度和上下文感知而聞名。
正如 MIT CSAIL 公告中所詳述的,結果非常驚人。與未使用搜索的標準代理相比,經 EnCompass 增強的代理在翻譯準確性上提高了 15% 到 40%。對於開發者社群來說,更令人印象深刻的可能是程式碼複雜性的降低。透過 EnCompass 實現搜索邏輯所需的程式碼行數比手動實現相同功能減少了約 80%。
這種效率的提升表明 EnCompass 可能會使強大 AI 代理的創建變得大眾化。以前無法負擔構建自定義搜索演算法工程開銷的小型團隊,現在可以部署可靠性媲美科技巨頭所構建的代理。
對於企業部門而言,EnCompass 的到來標誌著 AI 工程的成熟。我們正在從「提示工程(prompt engineering)」時代——調整文本以誘導模型工作——轉向「流程工程(flow engineering)」和「搜索工程(search engineering)」,在這些領域中,系統架構保證了可靠性。
Zhening Li,該研究的第一作者,同時也是 MIT CSAIL 和 Asari AI 的研究員,強調 EnCompass 並非 LangChain 等框架的替代品,而是一個補充層。LangChain 負責協調整體工具和提示,而 EnCompass 則管理決策軌跡。
企業 AI 的關鍵啟示:
EnCompass 的發布符合 AI 行業的一個更廣泛趨勢:轉向「推論時間計算(inference-time compute)」。正如 OpenAI 最近的推理模型在回答前投入更多時間進行「思考」一樣,EnCompass 等框架允許開發者在應用層以計算資源換取更高的可靠性。
Asari AI 和 MIT 團隊設想了一個未來,EnCompass 使代理能夠成為真正的發現協作者。想像一個任務是設計新化合物的代理。透過 EnCompass 使用 MCTS,代理可以探索數千種潛在的分子結構,當合成路徑證明不可能時進行回溯,並僅向人類科學家展示最可行的候選方案。
藉由有效解決錯誤累積問題,EnCompass 很可能是將 AI 代理從實驗性玩具轉變為關鍵生產系統所需的缺失基礎設施。