Le MIT dévoile le framework EnCompass pour optimiser les performances des agents IA via la recherche

Le MIT et Asari AI présentent EnCompass : Un changement de paradigme pour des agents d'IA (AI agents) fiables

Le développement d'agents d'IA autonomes est depuis longtemps entravé par un défi persistant : le problème d'accumulation d'erreurs (compounding error problem). Alors que les grands modèles de langage (Large Language Models - LLM) exécutent des flux de travail complexes à étapes multiples, une seule hallucination ou un faux pas logique peut faire dérailler tout un processus, rendant les agents à exécution longue peu fiables pour les tâches critiques en entreprise. Dans une percée majeure annoncée cette semaine, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et de la startup Asari AI ont dévoilé EnCompass, un nouveau cadre conçu pour résoudre cette crise de fiabilité en réimaginant fondamentalement la manière dont les agents exécutent le code.

Présenté à la conférence NeurIPS 2025 et maintenant détaillé dans un article largement discuté, EnCompass introduit le concept de "recherche au moment de l'inférence" (inference-time search) dans la programmation d'agents. En découplant la logique centrale de l'agent des stratégies utilisées pour rechercher des résultats corrects, le cadre permet aux développeurs de mettre en œuvre des mécanismes sophistiqués de récupération d'erreurs — tels que le retour arrière (backtracking) et l'exploration parallèle — sans réécrire l'intégralité de leur base de code.

Le défi : La fragilité des agents en mode « programme en contrôle » (Program-in-Control)

Pour comprendre l'importance d'EnCompass, il faut d'abord comprendre l'architecture des agents d'IA modernes. De nombreux agents de classe entreprise fonctionnent sur un modèle de « programme en contrôle », où un développeur définit un flux de travail spécifique (par exemple, « traduire ce code », « analyser ce rapport financier », « générer une hypothèse ») et le LLM est sollicité pour effectuer des sous-tâches spécifiques.

Bien que puissants, ces systèmes sont fragiles. Les LLM sont non déterministes ; ils peuvent fournir une réponse brillante à un moment donné et une hallucination l'instant d'après. Dans un flux de travail impliquant des dizaines d'étapes, la probabilité d'une erreur fatale frise la certitude. Traditionnellement, les développeurs ont tenté d'atténuer ce problème en écrivant un code de liaison (glue code) étendu — boucles manuelles, logique de répétition et vérifications conditionnelles pour intercepter les erreurs. Cette approche aboutit cependant souvent à des bases de code gonflées et ingérables, où la logique de gestion des erreurs éclipse la logique de la tâche réelle.

EnCompass remédie à cela en traitant l'exécution d'un agent non pas comme un chemin linéaire, mais comme un problème de recherche. Au lieu d'espérer que le modèle réussisse chaque étape, le cadre reconnaît que le chemin « correct » est caché dans un arbre de possibilités, et il fournit les outils pour naviguer efficacement dans cet arbre.

Découpler la logique de la recherche : Le modèle PAN

Au cœur d'EnCompass se trouve une innovation théorique appelée Non-déterminisme angélique probabiliste (Probabilistic Angelic Nondeterminism - PAN). Ce modèle de programmation permet aux développeurs d'écrire le « quoi » — la séquence d'étapes que l'agent doit effectuer — séparément du « comment » — la stratégie utilisée pour naviguer dans ces étapes.

En pratique, cela est réalisé via un décorateur Python, @encompass.compile. Lorsqu'un développeur enveloppe la fonction de son agent avec ce décorateur, EnCompass compile le flux de travail en un espace de recherche. Les points du code où le LLM est interrogé sont traités comme des « points de branchement » (branchpoints) — des bifurcations sur la route où l'exécution peut diverger.

Cette séparation offre des avantages profonds :

Modularité : Les développeurs peuvent changer la stratégie de recherche (passer d'un simple échantillonnage à des recherches arborescentes complexes) en modifiant un seul paramètre, sans toucher au code du flux de travail.
Clarté : La logique centrale reste lisible et concentrée sur la tâche, débarrassée des boucles de répétition complexes.
Puissance : Les algorithmes de recherche avancés qui étaient auparavant trop difficiles à mettre en œuvre manuellement deviennent accessibles par défaut.

Plongée technique : Retour arrière et exécution parallèle

Le cadre EnCompass dote les agents de capacités qui imitent la résolution de problèmes humaine. Lorsqu'un expert humain se heurte à une impasse, il revient sur une hypothèse précédente et essaie une approche différente. EnCompass permet aux agents d'IA de faire de même par programmation.

Le cadre prend en charge plusieurs stratégies de recherche prêtes à l'emploi, permettant aux développeurs d'optimiser la vitesse, le coût ou la précision en fonction du cas d'utilisation.

Tableau : Stratégies de recherche prises en charge par EnCompass

Stratégie	Description	Meilleur cas d'utilisation
Recherche par faisceau (Beam Search)	Explore plusieurs chemins prometteurs en parallèle, en ne conservant que les k meilleurs candidats à chaque étape.	Tâches à enjeux élevés nécessitant un équilibre entre étendue et vitesse.
Recherche arborescente Monte Carlo (MCTS)	Utilise des simulations pour estimer la valeur à long terme des choix actuels, en concentrant les ressources sur les branches les plus prometteuses.	Tâches de raisonnement complexes à étapes multiples où les décisions précoces ont des conséquences différées.
Échantillonnage Best-of-N (Best-of-N Sampling)	Génère plusieurs solutions indépendantes et sélectionne la meilleure en fonction d'un score de vérificateur.	Tâches avec des résultats facilement vérifiables, comme la génération de code ou les problèmes de mathématiques.
Retour arrière (Backtracking - DFS)	Explore un chemin en profondeur et revient à un état précédent si une condition d'échec est rencontrée.	Environnements à ressources limitées où trouver une solution valide est suffisant.

En standardisant ces stratégies, EnCompass permet à un agent tentant de traduire une base de code Java en Python d'explorer simultanément plusieurs options de traduction pour une fonction complexe. Si un chemin mène à un code qui ne parvient pas à se compiler, l'agent peut l'écarter et poursuivre avec une alternative viable, le tout géré automatiquement par le moteur d'exécution.

Performances prouvées : L'étude de cas Java-vers-Python

Les chercheurs ont validé EnCompass par une évaluation comparative rigoureuse (benchmarking), notamment une étude de cas impliquant la traduction automatisée de dépôts Java vers Python — une tâche réputée pour exiger une précision et une conscience du contexte élevées.

Les résultats, tels que détaillés dans l'annonce du MIT CSAIL, ont été frappants. Les agents améliorés par EnCompass ont montré une amélioration de 15 % à 40 % de la précision de la traduction par rapport aux agents standard qui n'utilisaient pas de recherche. Peut-être encore plus impressionnant pour la communauté des développeurs, la réduction de la complexité du code. La mise en œuvre de la logique de recherche via EnCompass a nécessité environ 80 % de lignes de code en moins par rapport à une mise en œuvre manuelle de la même fonctionnalité.

Ce gain d'efficacité suggère qu'EnCompass pourrait démocratiser la création d'agents d'IA robustes. De plus petites équipes, auparavant incapables de supporter les frais d'ingénierie liés à la construction d'algorithmes de recherche personnalisés, peuvent désormais déployer des agents qui rivalisent avec la fiabilité de ceux construits par les géants de la technologie.

Implications pour l'industrie : La fiabilité à l'échelle

Pour le secteur des entreprises, l'arrivée d'EnCompass signale une maturation de l'ingénierie de l'IA. Nous passons de l'ère de l'« ingénierie de prompts » (prompt engineering) — ajuster le texte pour inciter un modèle à fonctionner — à l'« ingénierie de flux » (flow engineering) et à l'« ingénierie de recherche » (search engineering), où l'architecture systémique garantit la fiabilité.

Zhening Li, l'auteur principal et chercheur au MIT CSAIL et chez Asari AI, a souligné qu'EnCompass n'est pas un remplacement pour des cadres comme LangChain, mais une couche complémentaire. Tandis que LangChain orchestre les outils et les prompts, EnCompass gère la trajectoire de prise de décision.

Implications clés pour l'IA en entreprise :

Prévisibilité : En validant plusieurs chemins, les agents sont moins susceptibles de renvoyer des résultats « hallucinés » ou non fonctionnels.
Auditabilité : La séparation de la recherche et de la logique facilite le débogage de la raison pour laquelle un agent a pris une décision spécifique.
Évolutivité (Scalability) : À mesure que les agents s'attaquent à des horizons plus longs — comme la conception de plans matériels ou la réalisation d'expériences scientifiques — la capacité de se remettre d'erreurs sans redémarrer devient critique.

Perspectives : L'avenir de la recherche agentique

La sortie d'EnCompass s'aligne sur une tendance plus large de l'industrie de l'IA : le passage au « calcul au moment de l'inférence » (inference-time compute). Tout comme les récents modèles de raisonnement d'OpenAI consacrent plus de temps à « réfléchir » avant de répondre, des cadres comme EnCompass permettent aux développeurs d'échanger des ressources informatiques contre une fiabilité accrue au niveau de la couche application.

Asari AI et l'équipe du MIT envisagent un avenir où EnCompass permettra aux agents d'agir comme de véritables collaborateurs dans la découverte. Imaginez un agent chargé de concevoir un nouveau composé chimique. En utilisant MCTS via EnCompass, l'agent pourrait explorer des milliers de structures moléculaires potentielles, faire un retour arrière lorsqu'un chemin de synthèse s'avère impossible, et ne présenter au scientifique humain que les candidats les plus viables.

By effectively solving the error-accumulation problem, EnCompass may well be the missing infrastructure needed to take AI agents from experimental toys to critical production systems.

Références et lectures complémentaires

MIT News : « Helping AI agents search to get best results from LLMs » (Fév 2026)
HPCWire : « New MIT Framework Uses Search to Handle LLM Errors in AI Agents »
Artificial Intelligence News : « How separating logic and search boosts AI agent scalability »
Actes de NeurIPS 2025 : « ENCOMPASS: Enhancing Agent Programming with Search Over Program Execution Paths »