AI News

MIT и Asari AI представляют EnCompass: смена парадигмы для создания надежных ИИ-агентов

Разработка автономных ИИ-агентов долгое время сдерживалась постоянной проблемой: проблемой накопления ошибок (compounding error problem). Поскольку большие языковые модели (Large Language Models, LLMs) выполняют сложные многоэтапные рабочие процессы, одна галлюцинация или логический просчет могут сорвать весь процесс, делая долго работающих агентов ненадежными для критически важных корпоративных задач. В результате крупного прорыва, объявленного на этой неделе, исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и стартапа Asari AI представили EnCompass, инновационную платформу, предназначенную для решения этого кризиса надежности путем фундаментального переосмысления того, как агенты выполняют код.

Представленная на конференции NeurIPS 2025 и подробно описанная в широко обсуждаемой статье, EnCompass вводит концепцию «поиска во время вывода» (inference-time search) в программирование агентов. Отделяя основную логику агента от стратегий, используемых для поиска правильных результатов, платформа позволяет разработчикам внедрять сложные механизмы восстановления после ошибок — такие как бэктрекинг (backtracking) и параллельное исследование — без переписывания всей кодовой базы.

Проблема: хрупкость агентов с моделью «программа под управлением»

Чтобы понять значимость EnCompass, необходимо сначала разобраться в архитектуре современных ИИ-агентов. Многие агенты корпоративного уровня работают по модели «программа под управлением» (program-in-control), где разработчик определяет конкретный рабочий процесс (например, «перевести этот код», «проанализировать этот финансовый отчет», «сформулировать гипотезу»), а LLM вызывается для выполнения конкретных подзадач.

Хотя эти системы мощны, они хрупки. LLM недетерминированы; в один момент они могут дать блестящий ответ, а в следующий — галлюцинацию. В рабочем процессе, включающем десятки шагов, вероятность фатальной ошибки приближается к стопроцентной. Традиционно разработчики пытались смягчить это, написав обширный «связующий код» (glue code) — ручные циклы, логику повторных попыток и условные проверки для отлова ошибок. Однако такой подход часто приводит к раздутым, неуправляемым кодовым базам, где логика обработки ошибок затмевает фактическую логику задачи.

EnCompass решает эту проблему, рассматривая выполнение агента не как линейный путь, а как задачу поиска. Вместо того чтобы надеяться, что модель правильно выполнит каждый шаг, платформа признает, что «правильный» путь скрыт внутри дерева возможностей, и предоставляет инструменты для эффективной навигации по этому дереву.

Отделение логики от поиска: модель PAN

В основе EnCompass лежит теоретическая инновация под названием вероятностный ангельский недетерминизм (Probabilistic Angelic Nondeterminism, PAN). Эта модель программирования позволяет разработчикам писать «что» — последовательность шагов, которые должен выполнить агент — отдельно от «как» — стратегии, используемой для навигации по этим шагам.

На практике это достигается с помощью декоратора Python, @encompass.compile. Когда разработчик оборачивает функцию своего агента этим декоратором, EnCompass компилирует рабочий процесс в пространство поиска. Точки в коде, где запрашивается LLM, рассматриваются как «точки ветвления» (branchpoints) — развилки на дороге, где выполнение может разойтись.

Это разделение дает глубокие преимущества:

  • Модульность: Разработчики могут изменять стратегию поиска (переходя от простого сэмплирования к сложному поиску по дереву), изменяя один параметр, не касаясь кода рабочего процесса.
  • Чистота: Основная логика остается читаемой и сосредоточенной на задаче, очищенной от сложных циклов повторных попыток.
  • Мощность: Расширенные алгоритмы поиска, которые ранее было слишком сложно реализовать вручную, становятся доступными по умолчанию.

Технический разбор: бэктрекинг и параллельное выполнение

Платформа EnCompass наделяет агентов возможностями, имитирующими человеческое решение проблем. Когда человек-эксперт заходит в тупик, он возвращается к предыдущему предположению и пробует другой подход. EnCompass позволяет ИИ-агентам делать то же самое программно.

Платформа поддерживает несколько стратегий поиска из коробки, позволяя разработчикам оптимизировать скорость, стоимость или точность в зависимости от сценария использования.

Таблица: Стратегии поиска, поддерживаемые EnCompass

Стратегия Описание Лучший сценарий использования
Лучевой поиск (Beam Search) Параллельно исследует несколько многообещающих путей, сохраняя только k лучших кандидатов на каждом шаге. Задачи с высокими ставками, требующие баланса между широтой охвата и скоростью.
Поиск по дереву Монте-Карло (MCTS) Использует симуляции для оценки долгосрочной ценности текущего выбора, сосредотачивая ресурсы на наиболее перспективных ветвях. Сложные многошаговые задачи рассуждения, где ранние решения имеют отложенные последствия.
Сэмплирование Best-of-N (Best-of-N Sampling) Генерирует несколько независимых решений и выбирает лучшее на основе оценки верификатора. Задачи с легко проверяемыми результатами, такие как генерация кода или математические задачи.
Бэктрекинг (Backtracking, DFS) Глубоко исследует путь и возвращается в предыдущее состояние, если условие сбоя выполнено. Среды с ограниченными ресурсами, где достаточно найти одно валидное решение.

Стандартизируя эти стратегии, EnCompass позволяет агенту, пытающемуся перевести кодовую базу Java на Python, одновременно исследовать несколько вариантов перевода для сложной функции. Если один путь ведет к коду, который не компилируется, агент может отбросить его и продолжить работу с жизнеспособной альтернативой — и все это обрабатывается автоматически движком времени выполнения.

Доказанная эффективность: пример перевода из Java в Python

Исследователи подтвердили эффективность EnCompass с помощью строгого тестирования, в частности, на примере автоматического перевода репозиториев Java на Python — задачи, известной требованиями к высокой точности и учету контекста.

Результаты, подробно описанные в объявлении MIT CSAIL, оказались поразительными. Агенты, усиленные EnCompass, показали улучшение точности перевода на 15–40% по сравнению со стандартными агентами, не использующими поиск. Возможно, еще более впечатляющим для сообщества разработчиков стало снижение сложности кода. Реализация логики поиска через EnCompass потребовала примерно на 80% меньше строк кода, чем реализация той же функциональности вручную.

Такой рост эффективности предполагает, что EnCompass может демократизировать создание надежных ИИ-агентов. Небольшие команды, которые ранее не могли позволить себе инженерные затраты на создание пользовательских алгоритмов поиска, теперь могут развертывать агентов, не уступающих по надежности тем, что созданы технологическими гигантами.

Влияние на отрасль: надежность в масштабе

Для корпоративного сектора появление EnCompass знаменует собой зрелость ИИ-инженерии. Мы переходим от эры «промпт-инженерии» (prompt engineering) — настройки текста для того, чтобы заставить модель работать, — к «инженерии потоков» (flow engineering) и «инженерии поиска» (search engineering), где системная архитектура гарантирует надежность.

Женин Ли (Zhening Li), ведущий автор и исследователь в MIT CSAIL и Asari AI, подчеркнул, что EnCompass — это не замена таким фреймворкам, как LangChain, а дополняющий уровень. В то время как LangChain организует инструменты и промпты, EnCompass управляет траекторией принятия решений.

Ключевые последствия для корпоративного ИИ:

  1. Предсказуемость: Благодаря проверке нескольких путей агенты реже выдают «галлюцинированные» или нефункционирующие результаты.
  2. Аудируемость: Разделение поиска и логики облегчает отладку того, почему агент принял конкретное решение.
  3. Масштабируемость: По мере того как агенты решают задачи с более длинным горизонтом — такие как проектирование чертежей оборудования или проведение научных экспериментов — возможность восстанавливаться после ошибок без перезапуска становится критически важной.

Взгляд в будущее: будущее агентного поиска

Выпуск EnCompass совпадает с более широкой тенденцией в ИИ-индустрии: переходом к «вычислениям во время вывода» (inference-time compute). Подобно тому, как недавние модели рассуждения OpenAI уделяют больше времени «размышлениям» перед ответом, такие платформы, как EnCompass, позволяют разработчикам обменивать вычислительные ресурсы на более высокую надежность на уровне приложений.

Asari AI и команда MIT видят будущее, в котором EnCompass позволит агентам выступать в качестве настоящих соавторов в открытиях. Представьте себе агента, которому поручено спроектировать новое химическое соединение. Используя MCTS через EnCompass, агент может исследовать тысячи потенциальных молекулярных структур, возвращаться назад, когда путь синтеза оказывается невозможным, и представлять ученому только наиболее жизнеспособные варианты.

Эффективно решая проблему накопления ошибок, EnCompass вполне может стать той недостающей инфраструктурой, которая необходима для превращения ИИ-агентов из экспериментальных игрушек в критически важные производственные системы.

Ссылки и дополнительная литература

  • MIT News: "Helping AI agents search to get best results from LLMs" (Февраль 2026)
  • HPCWire: "New MIT Framework Uses Search to Handle LLM Errors in AI Agents"
  • Artificial Intelligence News: "How separating logic and search boosts AI agent scalability"
  • Материалы NeurIPS 2025: "ENCOMPASS: Enhancing Agent Programming with Search Over Program Execution Paths"
Рекомендуемые
ex ads 202603311112
1111111111111
BlazeGard
Blazeguard provides unparalleled fire safety through innovative fire-rated sheathing technology.
Test Face Swap
Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap
Midjourney for Slack
Bring AI-generated images directly to your Slack workspace with Midjourney for Slack.
AI Bot Eye
Transform your security with AI-driven surveillance technology.
amy
Amy is a comprehensive workplace assistant that streamlines tasks, schedules meetings, and manages projects.
sharkfoto-20250108-quick
Remove background from the image with just one click and convert the image to or from 200+ formats.
test 2 face swap 2
test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face
Gptzero me
GPTZero is a tool to detect AI-generated text accurately and easily.
sharkfoto-20250108-free
AI-powered tool for background removal and image conversion in over 200 formats.
BGRemover
Easily remove image backgrounds online with SharkFoto BGRemover.
sharkfoto agent test 202510111844
SharkFoto offers AI-powered free photo editing tools including background removal and colorization.
WorkViz
Workviz: AI-powered platform optimizing team performance through comprehensive analytics.
FreeAiKit
FreeAiKit offers a collection of free AI tools for various content creation needs.
TAROT ARCANA
Unveil your future with Tarot Arcana, an AI-powered tarot reading app.
Skywork
Skywork преобразует простой ввод в мультимодальный контент, такой как отчеты и слайды.
sharkfoto svip 20250715
BrowseGPTs
Daily updated directory for diverse ChatGPT models.
blockbank
All-in-one crypto neo banking app combining DeFi and CeFi technologies.
Sharkfoto Quick 091801
SharkFoto offers free AI-powered image editing tools including background removal and photo colorization.
Neuronwriter
Advanced tool for content optimization using semantic models.
Novel
Novel helps you craft a comprehensive professional profile.
AI Fortunist (AI-Powered Tarot Readings)
AI Fortunist provides personalized tarot readings, coffee readings, and dream interpretations using advanced AI.
ParrotPDF
ParrotPDF lets users engage with PDF files interactively.
Flove
Flove is a minimalist movement tracking app with innovative features.
Franklin AI
AI tool to streamline business operations and enhance decision-making.
Durable AI
AI-powered website builder to get your business online in 30 seconds.
JungGPT
An AI tool for emotional reflection and psychological insights.
ChartX
AI-powered medical documentation for efficient and accurate patient care.
eztalks-20250226-0424003
Удаляйте фоны с изображений и беспрепятственно преобразуйте форматы изображений с помощью SharkFoto.
Udemy Summary with ChatGPT
Summarize Udemy videos with ChatGPT and take notes effortlessly.
Astro Answer New Tab
Discover astrology with personalized AI-generated horoscopes.
aiBot копирайтер
Effortlessly enhance your text with aiBot копирайтер.
PageSage
PageSage simplifies web browsing by generating questions and answers instantly.
GPU Finder
GPU Finder helps discover available GPU instances from global public cloud providers.
Skyworker
AI-powered platform for tech job seekers and recruiters.
Craft
Craft is a powerful document creation and collaboration tool for teams and individuals.
GottaMeme. AI Meme Generator
Create hilarious memes effortlessly with GottaMeme's AI-powered generator.
Recap
Easily summarize any webpage portion with Recap, an open-source browser extension utilizing ChatGPT.
kimi quick test 20250417-121312223
Инновационная платформа для повышения личной продуктивности.
Magazine Luiza
Efficient shopping assistant for Magazine Luiza users.
sharkfoto svip test 202512241034
SharkFoto — платформа с поддержкой ИИ для лёгкого создания и редактирования видео, изображений и музыки.
Bigjpg AI
Bigjpg enhances image quality through advanced AI upscaling.
kimi test 20250328-3
Инновационная платформа, позволяющая безупречное сотрудничество и продуктивность.
viddo.ai
Veo3 by Viddo AI enables AI-powered text or image to high-quality video creation rapidly.
Simplifly
Summarize lengthy articles easily with Simplifly.
BearGPT - Chatgpt Enhancer
Enhance your ChatGPT experience with BearGPT for better navigation and customization.
2026 Face Swap
2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Fac
TextPal
TextPal utilizes AI to summarize and manage webpage text effortlessly.
AlgoDocs
AlgoDocs: AI-powered document data extraction made easy.
Audioread: Ultra-Realistic Text-to-Speech
Listen to articles with ultra-realistic AI voices.
GPTXtend
Enhance your ChatGPT experience with powerful sharing tools.
Free Email Extractor from Website
Free email extraction tool for scraping emails, phone numbers, and social profiles from websites.
Skypher
Streamline your security reviews with Skypher's automation.
AI PDF chatbot agent built with LangChain & LangGraph
SharkFoto предлагает бесплатные инструменты для редактирования фотографий на базе ИИ для удаления фона, колоризации, улучшения и изменения размера изображений.
Wan 2.2-test
Wan 2 AI offers fast, high-quality 1080p AI video generation with advanced motion control.
Tappy AI
AI browser extension for adding thoughtful comments to LinkedIn posts.
sharkfoto-svip-092202
SharkFoto offers free AI-powered image editing tools like background removal and coloring.
Letz DM
Automate TikTok influencer marketing without the hassle.
Belly Buddy
Track food intake and digestive symptoms with Belly Buddy.
sharkfoto svip test 202509221443
SharkFoto offers free AI-powered photo editing tools for automatic background removal and image enhancement.
sharkfoto-svip-0922-changename
SharkFoto предоставляет бесплатные инструменты для фото на базе ИИ, автоматически удаляющие фон и улучшающие изображения.
Alltum
Organizes emails, tasks, and files with AI-driven project management.

MIT представляет фреймворк EnCompass для оптимизации производительности агентов ИИ с помощью поиска

Исследователи MIT CSAIL представляют EnCompass — прорывной фреймворк, использующий откат и параллельный поиск для значительного повышения надежности и эффективности агентов ИИ.