
Разработка автономных ИИ-агентов долгое время сдерживалась постоянной проблемой: проблемой накопления ошибок (compounding error problem). Поскольку большие языковые модели (Large Language Models, LLMs) выполняют сложные многоэтапные рабочие процессы, одна галлюцинация или логический просчет могут сорвать весь процесс, делая долго работающих агентов ненадежными для критически важных корпоративных задач. В результате крупного прорыва, объявленного на этой неделе, исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и стартапа Asari AI представили EnCompass, инновационную платформу, предназначенную для решения этого кризиса надежности путем фундаментального переосмысления того, как агенты выполняют код.
Представленная на конференции NeurIPS 2025 и подробно описанная в широко обсуждаемой статье, EnCompass вводит концепцию «поиска во время вывода» (inference-time search) в программирование агентов. Отделяя основную логику агента от стратегий, используемых для поиска правильных результатов, платформа позволяет разработчикам внедрять сложные механизмы восстановления после ошибок — такие как бэктрекинг (backtracking) и параллельное исследование — без переписывания всей кодовой базы.
Чтобы понять значимость EnCompass, необходимо сначала разобраться в архитектуре современных ИИ-агентов. Многие агенты корпоративного уровня работают по модели «программа под управлением» (program-in-control), где разработчик определяет конкретный рабочий процесс (например, «перевести этот код», «проанализировать этот финансовый отчет», «сформулировать гипотезу»), а LLM вызывается для выполнения конкретных подзадач.
Хотя эти системы мощны, они хрупки. LLM недетерминированы; в один момент они могут дать блестящий ответ, а в следующий — галлюцинацию. В рабочем процессе, включающем десятки шагов, вероятность фатальной ошибки приближается к стопроцентной. Традиционно разработчики пытались смягчить это, написав обширный «связующий код» (glue code) — ручные циклы, логику повторных попыток и условные проверки для отлова ошибок. Однако такой подход часто приводит к раздутым, неуправляемым кодовым базам, где логика обработки ошибок затмевает фактическую логику задачи.
EnCompass решает эту проблему, рассматривая выполнение агента не как линейный путь, а как задачу поиска. Вместо того чтобы надеяться, что модель правильно выполнит каждый шаг, платформа признает, что «правильный» путь скрыт внутри дерева возможностей, и предоставляет инструменты для эффективной навигации по этому дереву.
В основе EnCompass лежит теоретическая инновация под названием вероятностный ангельский недетерминизм (Probabilistic Angelic Nondeterminism, PAN). Эта модель программирования позволяет разработчикам писать «что» — последовательность шагов, которые должен выполнить агент — отдельно от «как» — стратегии, используемой для навигации по этим шагам.
На практике это достигается с помощью декоратора Python, @encompass.compile. Когда разработчик оборачивает функцию своего агента этим декоратором, EnCompass компилирует рабочий процесс в пространство поиска. Точки в коде, где запрашивается LLM, рассматриваются как «точки ветвления» (branchpoints) — развилки на дороге, где выполнение может разойтись.
Это разделение дает глубокие преимущества:
Платформа EnCompass наделяет агентов возможностями, имитирующими человеческое решение проблем. Когда человек-эксперт заходит в тупик, он возвращается к предыдущему предположению и пробует другой подход. EnCompass позволяет ИИ-агентам делать то же самое программно.
Платформа поддерживает несколько стратегий поиска из коробки, позволяя разработчикам оптимизировать скорость, стоимость или точность в зависимости от сценария использования.
Таблица: Стратегии поиска, поддерживаемые EnCompass
| Стратегия | Описание | Лучший сценарий использования |
|---|---|---|
| Лучевой поиск (Beam Search) | Параллельно исследует несколько многообещающих путей, сохраняя только k лучших кандидатов на каждом шаге. | Задачи с высокими ставками, требующие баланса между широтой охвата и скоростью. |
| Поиск по дереву Монте-Карло (MCTS) | Использует симуляции для оценки долгосрочной ценности текущего выбора, сосредотачивая ресурсы на наиболее перспективных ветвях. | Сложные многошаговые задачи рассуждения, где ранние решения имеют отложенные последствия. |
| Сэмплирование Best-of-N (Best-of-N Sampling) | Генерирует несколько независимых решений и выбирает лучшее на основе оценки верификатора. | Задачи с легко проверяемыми результатами, такие как генерация кода или математические задачи. |
| Бэктрекинг (Backtracking, DFS) | Глубоко исследует путь и возвращается в предыдущее состояние, если условие сбоя выполнено. | Среды с ограниченными ресурсами, где достаточно найти одно валидное решение. |
Стандартизируя эти стратегии, EnCompass позволяет агенту, пытающемуся перевести кодовую базу Java на Python, одновременно исследовать несколько вариантов перевода для сложной функции. Если один путь ведет к коду, который не компилируется, агент может отбросить его и продолжить работу с жизнеспособной альтернативой — и все это обрабатывается автоматически движком времени выполнения.
Исследователи подтвердили эффективность EnCompass с помощью строгого тестирования, в частности, на примере автоматического перевода репозиториев Java на Python — задачи, известной требованиями к высокой точности и учету контекста.
Результаты, подробно описанные в объявлении MIT CSAIL, оказались поразительными. Агенты, усиленные EnCompass, показали улучшение точности перевода на 15–40% по сравнению со стандартными агентами, не использующими поиск. Возможно, еще более впечатляющим для сообщества разработчиков стало снижение сложности кода. Реализация логики поиска через EnCompass потребовала примерно на 80% меньше строк кода, чем реализация той же функциональности вручную.
Такой рост эффективности предполагает, что EnCompass может демократизировать создание надежных ИИ-агентов. Небольшие команды, которые ранее не могли позволить себе инженерные затраты на создание пользовательских алгоритмов поиска, теперь могут развертывать агентов, не уступающих по надежности тем, что созданы технологическими гигантами.
Для корпоративного сектора появление EnCompass знаменует собой зрелость ИИ-инженерии. Мы переходим от эры «промпт-инженерии» (prompt engineering) — настройки текста для того, чтобы заставить модель работать, — к «инженерии потоков» (flow engineering) и «инженерии поиска» (search engineering), где системная архитектура гарантирует надежность.
Женин Ли (Zhening Li), ведущий автор и исследователь в MIT CSAIL и Asari AI, подчеркнул, что EnCompass — это не замена таким фреймворкам, как LangChain, а дополняющий уровень. В то время как LangChain организует инструменты и промпты, EnCompass управляет траекторией принятия решений.
Ключевые последствия для корпоративного ИИ:
Выпуск EnCompass совпадает с более широкой тенденцией в ИИ-индустрии: переходом к «вычислениям во время вывода» (inference-time compute). Подобно тому, как недавние модели рассуждения OpenAI уделяют больше времени «размышлениям» перед ответом, такие платформы, как EnCompass, позволяют разработчикам обменивать вычислительные ресурсы на более высокую надежность на уровне приложений.
Asari AI и команда MIT видят будущее, в котором EnCompass позволит агентам выступать в качестве настоящих соавторов в открытиях. Представьте себе агента, которому поручено спроектировать новое химическое соединение. Используя MCTS через EnCompass, агент может исследовать тысячи потенциальных молекулярных структур, возвращаться назад, когда путь синтеза оказывается невозможным, и представлять ученому только наиболее жизнеспособные варианты.
Эффективно решая проблему накопления ошибок, EnCompass вполне может стать той недостающей инфраструктурой, которая необходима для превращения ИИ-агентов из экспериментальных игрушек в критически важные производственные системы.