
Le développement d'agents d'IA autonomes est depuis longtemps entravé par un défi persistant : le problème d'accumulation d'erreurs (compounding error problem). Alors que les grands modèles de langage (Large Language Models - LLM) exécutent des flux de travail complexes à étapes multiples, une seule hallucination ou un faux pas logique peut faire dérailler tout un processus, rendant les agents à exécution longue peu fiables pour les tâches critiques en entreprise. Dans une percée majeure annoncée cette semaine, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et de la startup Asari AI ont dévoilé EnCompass, un nouveau cadre conçu pour résoudre cette crise de fiabilité en réimaginant fondamentalement la manière dont les agents exécutent le code.
Présenté à la conférence NeurIPS 2025 et maintenant détaillé dans un article largement discuté, EnCompass introduit le concept de "recherche au moment de l'inférence" (inference-time search) dans la programmation d'agents. En découplant la logique centrale de l'agent des stratégies utilisées pour rechercher des résultats corrects, le cadre permet aux développeurs de mettre en œuvre des mécanismes sophistiqués de récupération d'erreurs — tels que le retour arrière (backtracking) et l'exploration parallèle — sans réécrire l'intégralité de leur base de code.
Pour comprendre l'importance d'EnCompass, il faut d'abord comprendre l'architecture des agents d'IA modernes. De nombreux agents de classe entreprise fonctionnent sur un modèle de « programme en contrôle », où un développeur définit un flux de travail spécifique (par exemple, « traduire ce code », « analyser ce rapport financier », « générer une hypothèse ») et le LLM est sollicité pour effectuer des sous-tâches spécifiques.
Bien que puissants, ces systèmes sont fragiles. Les LLM sont non déterministes ; ils peuvent fournir une réponse brillante à un moment donné et une hallucination l'instant d'après. Dans un flux de travail impliquant des dizaines d'étapes, la probabilité d'une erreur fatale frise la certitude. Traditionnellement, les développeurs ont tenté d'atténuer ce problème en écrivant un code de liaison (glue code) étendu — boucles manuelles, logique de répétition et vérifications conditionnelles pour intercepter les erreurs. Cette approche aboutit cependant souvent à des bases de code gonflées et ingérables, où la logique de gestion des erreurs éclipse la logique de la tâche réelle.
EnCompass remédie à cela en traitant l'exécution d'un agent non pas comme un chemin linéaire, mais comme un problème de recherche. Au lieu d'espérer que le modèle réussisse chaque étape, le cadre reconnaît que le chemin « correct » est caché dans un arbre de possibilités, et il fournit les outils pour naviguer efficacement dans cet arbre.
Au cœur d'EnCompass se trouve une innovation théorique appelée Non-déterminisme angélique probabiliste (Probabilistic Angelic Nondeterminism - PAN). Ce modèle de programmation permet aux développeurs d'écrire le « quoi » — la séquence d'étapes que l'agent doit effectuer — séparément du « comment » — la stratégie utilisée pour naviguer dans ces étapes.
En pratique, cela est réalisé via un décorateur Python, @encompass.compile. Lorsqu'un développeur enveloppe la fonction de son agent avec ce décorateur, EnCompass compile le flux de travail en un espace de recherche. Les points du code où le LLM est interrogé sont traités comme des « points de branchement » (branchpoints) — des bifurcations sur la route où l'exécution peut diverger.
Cette séparation offre des avantages profonds :
Le cadre EnCompass dote les agents de capacités qui imitent la résolution de problèmes humaine. Lorsqu'un expert humain se heurte à une impasse, il revient sur une hypothèse précédente et essaie une approche différente. EnCompass permet aux agents d'IA de faire de même par programmation.
Le cadre prend en charge plusieurs stratégies de recherche prêtes à l'emploi, permettant aux développeurs d'optimiser la vitesse, le coût ou la précision en fonction du cas d'utilisation.
Tableau : Stratégies de recherche prises en charge par EnCompass
| Stratégie | Description | Meilleur cas d'utilisation |
|---|---|---|
| Recherche par faisceau (Beam Search) | Explore plusieurs chemins prometteurs en parallèle, en ne conservant que les k meilleurs candidats à chaque étape. | Tâches à enjeux élevés nécessitant un équilibre entre étendue et vitesse. |
| Recherche arborescente Monte Carlo (MCTS) | Utilise des simulations pour estimer la valeur à long terme des choix actuels, en concentrant les ressources sur les branches les plus prometteuses. | Tâches de raisonnement complexes à étapes multiples où les décisions précoces ont des conséquences différées. |
| Échantillonnage Best-of-N (Best-of-N Sampling) | Génère plusieurs solutions indépendantes et sélectionne la meilleure en fonction d'un score de vérificateur. | Tâches avec des résultats facilement vérifiables, comme la génération de code ou les problèmes de mathématiques. |
| Retour arrière (Backtracking - DFS) | Explore un chemin en profondeur et revient à un état précédent si une condition d'échec est rencontrée. | Environnements à ressources limitées où trouver une solution valide est suffisant. |
En standardisant ces stratégies, EnCompass permet à un agent tentant de traduire une base de code Java en Python d'explorer simultanément plusieurs options de traduction pour une fonction complexe. Si un chemin mène à un code qui ne parvient pas à se compiler, l'agent peut l'écarter et poursuivre avec une alternative viable, le tout géré automatiquement par le moteur d'exécution.
Les chercheurs ont validé EnCompass par une évaluation comparative rigoureuse (benchmarking), notamment une étude de cas impliquant la traduction automatisée de dépôts Java vers Python — une tâche réputée pour exiger une précision et une conscience du contexte élevées.
Les résultats, tels que détaillés dans l'annonce du MIT CSAIL, ont été frappants. Les agents améliorés par EnCompass ont montré une amélioration de 15 % à 40 % de la précision de la traduction par rapport aux agents standard qui n'utilisaient pas de recherche. Peut-être encore plus impressionnant pour la communauté des développeurs, la réduction de la complexité du code. La mise en œuvre de la logique de recherche via EnCompass a nécessité environ 80 % de lignes de code en moins par rapport à une mise en œuvre manuelle de la même fonctionnalité.
Ce gain d'efficacité suggère qu'EnCompass pourrait démocratiser la création d'agents d'IA robustes. De plus petites équipes, auparavant incapables de supporter les frais d'ingénierie liés à la construction d'algorithmes de recherche personnalisés, peuvent désormais déployer des agents qui rivalisent avec la fiabilité de ceux construits par les géants de la technologie.
Pour le secteur des entreprises, l'arrivée d'EnCompass signale une maturation de l'ingénierie de l'IA. Nous passons de l'ère de l'« ingénierie de prompts » (prompt engineering) — ajuster le texte pour inciter un modèle à fonctionner — à l'« ingénierie de flux » (flow engineering) et à l'« ingénierie de recherche » (search engineering), où l'architecture systémique garantit la fiabilité.
Zhening Li, l'auteur principal et chercheur au MIT CSAIL et chez Asari AI, a souligné qu'EnCompass n'est pas un remplacement pour des cadres comme LangChain, mais une couche complémentaire. Tandis que LangChain orchestre les outils et les prompts, EnCompass gère la trajectoire de prise de décision.
Implications clés pour l'IA en entreprise :
La sortie d'EnCompass s'aligne sur une tendance plus large de l'industrie de l'IA : le passage au « calcul au moment de l'inférence » (inference-time compute). Tout comme les récents modèles de raisonnement d'OpenAI consacrent plus de temps à « réfléchir » avant de répondre, des cadres comme EnCompass permettent aux développeurs d'échanger des ressources informatiques contre une fiabilité accrue au niveau de la couche application.
Asari AI et l'équipe du MIT envisagent un avenir où EnCompass permettra aux agents d'agir comme de véritables collaborateurs dans la découverte. Imaginez un agent chargé de concevoir un nouveau composé chimique. En utilisant MCTS via EnCompass, l'agent pourrait explorer des milliers de structures moléculaires potentielles, faire un retour arrière lorsqu'un chemin de synthèse s'avère impossible, et ne présenter au scientifique humain que les candidats les plus viables.
By effectively solving the error-accumulation problem, EnCompass may well be the missing infrastructure needed to take AI agents from experimental toys to critical production systems.