AI News

Le MIT et Asari AI présentent EnCompass : Un changement de paradigme pour des agents d'IA (AI agents) fiables

Le développement d'agents d'IA autonomes est depuis longtemps entravé par un défi persistant : le problème d'accumulation d'erreurs (compounding error problem). Alors que les grands modèles de langage (Large Language Models - LLM) exécutent des flux de travail complexes à étapes multiples, une seule hallucination ou un faux pas logique peut faire dérailler tout un processus, rendant les agents à exécution longue peu fiables pour les tâches critiques en entreprise. Dans une percée majeure annoncée cette semaine, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et de la startup Asari AI ont dévoilé EnCompass, un nouveau cadre conçu pour résoudre cette crise de fiabilité en réimaginant fondamentalement la manière dont les agents exécutent le code.

Présenté à la conférence NeurIPS 2025 et maintenant détaillé dans un article largement discuté, EnCompass introduit le concept de "recherche au moment de l'inférence" (inference-time search) dans la programmation d'agents. En découplant la logique centrale de l'agent des stratégies utilisées pour rechercher des résultats corrects, le cadre permet aux développeurs de mettre en œuvre des mécanismes sophistiqués de récupération d'erreurs — tels que le retour arrière (backtracking) et l'exploration parallèle — sans réécrire l'intégralité de leur base de code.

Le défi : La fragilité des agents en mode « programme en contrôle » (Program-in-Control)

Pour comprendre l'importance d'EnCompass, il faut d'abord comprendre l'architecture des agents d'IA modernes. De nombreux agents de classe entreprise fonctionnent sur un modèle de « programme en contrôle », où un développeur définit un flux de travail spécifique (par exemple, « traduire ce code », « analyser ce rapport financier », « générer une hypothèse ») et le LLM est sollicité pour effectuer des sous-tâches spécifiques.

Bien que puissants, ces systèmes sont fragiles. Les LLM sont non déterministes ; ils peuvent fournir une réponse brillante à un moment donné et une hallucination l'instant d'après. Dans un flux de travail impliquant des dizaines d'étapes, la probabilité d'une erreur fatale frise la certitude. Traditionnellement, les développeurs ont tenté d'atténuer ce problème en écrivant un code de liaison (glue code) étendu — boucles manuelles, logique de répétition et vérifications conditionnelles pour intercepter les erreurs. Cette approche aboutit cependant souvent à des bases de code gonflées et ingérables, où la logique de gestion des erreurs éclipse la logique de la tâche réelle.

EnCompass remédie à cela en traitant l'exécution d'un agent non pas comme un chemin linéaire, mais comme un problème de recherche. Au lieu d'espérer que le modèle réussisse chaque étape, le cadre reconnaît que le chemin « correct » est caché dans un arbre de possibilités, et il fournit les outils pour naviguer efficacement dans cet arbre.

Découpler la logique de la recherche : Le modèle PAN

Au cœur d'EnCompass se trouve une innovation théorique appelée Non-déterminisme angélique probabiliste (Probabilistic Angelic Nondeterminism - PAN). Ce modèle de programmation permet aux développeurs d'écrire le « quoi » — la séquence d'étapes que l'agent doit effectuer — séparément du « comment » — la stratégie utilisée pour naviguer dans ces étapes.

En pratique, cela est réalisé via un décorateur Python, @encompass.compile. Lorsqu'un développeur enveloppe la fonction de son agent avec ce décorateur, EnCompass compile le flux de travail en un espace de recherche. Les points du code où le LLM est interrogé sont traités comme des « points de branchement » (branchpoints) — des bifurcations sur la route où l'exécution peut diverger.

Cette séparation offre des avantages profonds :

  • Modularité : Les développeurs peuvent changer la stratégie de recherche (passer d'un simple échantillonnage à des recherches arborescentes complexes) en modifiant un seul paramètre, sans toucher au code du flux de travail.
  • Clarté : La logique centrale reste lisible et concentrée sur la tâche, débarrassée des boucles de répétition complexes.
  • Puissance : Les algorithmes de recherche avancés qui étaient auparavant trop difficiles à mettre en œuvre manuellement deviennent accessibles par défaut.

Plongée technique : Retour arrière et exécution parallèle

Le cadre EnCompass dote les agents de capacités qui imitent la résolution de problèmes humaine. Lorsqu'un expert humain se heurte à une impasse, il revient sur une hypothèse précédente et essaie une approche différente. EnCompass permet aux agents d'IA de faire de même par programmation.

Le cadre prend en charge plusieurs stratégies de recherche prêtes à l'emploi, permettant aux développeurs d'optimiser la vitesse, le coût ou la précision en fonction du cas d'utilisation.

Tableau : Stratégies de recherche prises en charge par EnCompass

Stratégie Description Meilleur cas d'utilisation
Recherche par faisceau (Beam Search) Explore plusieurs chemins prometteurs en parallèle, en ne conservant que les k meilleurs candidats à chaque étape. Tâches à enjeux élevés nécessitant un équilibre entre étendue et vitesse.
Recherche arborescente Monte Carlo (MCTS) Utilise des simulations pour estimer la valeur à long terme des choix actuels, en concentrant les ressources sur les branches les plus prometteuses. Tâches de raisonnement complexes à étapes multiples où les décisions précoces ont des conséquences différées.
Échantillonnage Best-of-N (Best-of-N Sampling) Génère plusieurs solutions indépendantes et sélectionne la meilleure en fonction d'un score de vérificateur. Tâches avec des résultats facilement vérifiables, comme la génération de code ou les problèmes de mathématiques.
Retour arrière (Backtracking - DFS) Explore un chemin en profondeur et revient à un état précédent si une condition d'échec est rencontrée. Environnements à ressources limitées où trouver une solution valide est suffisant.

En standardisant ces stratégies, EnCompass permet à un agent tentant de traduire une base de code Java en Python d'explorer simultanément plusieurs options de traduction pour une fonction complexe. Si un chemin mène à un code qui ne parvient pas à se compiler, l'agent peut l'écarter et poursuivre avec une alternative viable, le tout géré automatiquement par le moteur d'exécution.

Performances prouvées : L'étude de cas Java-vers-Python

Les chercheurs ont validé EnCompass par une évaluation comparative rigoureuse (benchmarking), notamment une étude de cas impliquant la traduction automatisée de dépôts Java vers Python — une tâche réputée pour exiger une précision et une conscience du contexte élevées.

Les résultats, tels que détaillés dans l'annonce du MIT CSAIL, ont été frappants. Les agents améliorés par EnCompass ont montré une amélioration de 15 % à 40 % de la précision de la traduction par rapport aux agents standard qui n'utilisaient pas de recherche. Peut-être encore plus impressionnant pour la communauté des développeurs, la réduction de la complexité du code. La mise en œuvre de la logique de recherche via EnCompass a nécessité environ 80 % de lignes de code en moins par rapport à une mise en œuvre manuelle de la même fonctionnalité.

Ce gain d'efficacité suggère qu'EnCompass pourrait démocratiser la création d'agents d'IA robustes. De plus petites équipes, auparavant incapables de supporter les frais d'ingénierie liés à la construction d'algorithmes de recherche personnalisés, peuvent désormais déployer des agents qui rivalisent avec la fiabilité de ceux construits par les géants de la technologie.

Implications pour l'industrie : La fiabilité à l'échelle

Pour le secteur des entreprises, l'arrivée d'EnCompass signale une maturation de l'ingénierie de l'IA. Nous passons de l'ère de l'« ingénierie de prompts » (prompt engineering) — ajuster le texte pour inciter un modèle à fonctionner — à l'« ingénierie de flux » (flow engineering) et à l'« ingénierie de recherche » (search engineering), où l'architecture systémique garantit la fiabilité.

Zhening Li, l'auteur principal et chercheur au MIT CSAIL et chez Asari AI, a souligné qu'EnCompass n'est pas un remplacement pour des cadres comme LangChain, mais une couche complémentaire. Tandis que LangChain orchestre les outils et les prompts, EnCompass gère la trajectoire de prise de décision.

Implications clés pour l'IA en entreprise :

  1. Prévisibilité : En validant plusieurs chemins, les agents sont moins susceptibles de renvoyer des résultats « hallucinés » ou non fonctionnels.
  2. Auditabilité : La séparation de la recherche et de la logique facilite le débogage de la raison pour laquelle un agent a pris une décision spécifique.
  3. Évolutivité (Scalability) : À mesure que les agents s'attaquent à des horizons plus longs — comme la conception de plans matériels ou la réalisation d'expériences scientifiques — la capacité de se remettre d'erreurs sans redémarrer devient critique.

Perspectives : L'avenir de la recherche agentique

La sortie d'EnCompass s'aligne sur une tendance plus large de l'industrie de l'IA : le passage au « calcul au moment de l'inférence » (inference-time compute). Tout comme les récents modèles de raisonnement d'OpenAI consacrent plus de temps à « réfléchir » avant de répondre, des cadres comme EnCompass permettent aux développeurs d'échanger des ressources informatiques contre une fiabilité accrue au niveau de la couche application.

Asari AI et l'équipe du MIT envisagent un avenir où EnCompass permettra aux agents d'agir comme de véritables collaborateurs dans la découverte. Imaginez un agent chargé de concevoir un nouveau composé chimique. En utilisant MCTS via EnCompass, l'agent pourrait explorer des milliers de structures moléculaires potentielles, faire un retour arrière lorsqu'un chemin de synthèse s'avère impossible, et ne présenter au scientifique humain que les candidats les plus viables.

By effectively solving the error-accumulation problem, EnCompass may well be the missing infrastructure needed to take AI agents from experimental toys to critical production systems.

Références et lectures complémentaires

  • MIT News : « Helping AI agents search to get best results from LLMs » (Fév 2026)
  • HPCWire : « New MIT Framework Uses Search to Handle LLM Errors in AI Agents »
  • Artificial Intelligence News : « How separating logic and search boosts AI agent scalability »
  • Actes de NeurIPS 2025 : « ENCOMPASS: Enhancing Agent Programming with Search Over Program Execution Paths »
Vedettes
ex ads 202603311112
1111111111111
BlazeGard
Blazeguard provides unparalleled fire safety through innovative fire-rated sheathing technology.
Test Face Swap
FR FR FR FR FR FR FR FR FR FR FR FR FR
Midjourney for Slack
Bring AI-generated images directly to your Slack workspace with Midjourney for Slack.
AI Bot Eye
Transform your security with AI-driven surveillance technology.
amy
Amy is a comprehensive workplace assistant that streamlines tasks, schedules meetings, and manages projects.
sharkfoto-20250108-quick
Remove background from the image with just one click and convert the image to or from 200+ formats.
test 2 face swap 2
fr fr
Gptzero me
GPTZero is a tool to detect AI-generated text accurately and easily.
sharkfoto-20250108-free
AI-powered tool for background removal and image conversion in over 200 formats.
BGRemover
Easily remove image backgrounds online with SharkFoto BGRemover.
sharkfoto agent test 202510111844
SharkFoto offers AI-powered free photo editing tools including background removal and colorization.
WorkViz
Workviz: AI-powered platform optimizing team performance through comprehensive analytics.
FreeAiKit
FreeAiKit offers a collection of free AI tools for various content creation needs.
TAROT ARCANA
Unveil your future with Tarot Arcana, an AI-powered tarot reading app.
Skywork
Skywork transforme des entrées simples en contenus multimodaux tels que des rapports et des diapositives.
sharkfoto svip 20250715
BrowseGPTs
Daily updated directory for diverse ChatGPT models.
blockbank
All-in-one crypto neo banking app combining DeFi and CeFi technologies.
Sharkfoto Quick 091801
SharkFoto offers free AI-powered image editing tools including background removal and photo colorization.
Neuronwriter
Advanced tool for content optimization using semantic models.
Novel
Novel helps you craft a comprehensive professional profile.
AI Fortunist (AI-Powered Tarot Readings)
AI Fortunist provides personalized tarot readings, coffee readings, and dream interpretations using advanced AI.
ParrotPDF
ParrotPDF lets users engage with PDF files interactively.
Flove
Flove is a minimalist movement tracking app with innovative features.
Franklin AI
AI tool to streamline business operations and enhance decision-making.
Durable AI
AI-powered website builder to get your business online in 30 seconds.
JungGPT
An AI tool for emotional reflection and psychological insights.
ChartX
AI-powered medical documentation for efficient and accurate patient care.
eztalks-20250226-0424003
Supprimez les arrière-plans des images et convertissez les formats d’image sans effort avec SharkFoto.
Udemy Summary with ChatGPT
Summarize Udemy videos with ChatGPT and take notes effortlessly.
Astro Answer New Tab
Discover astrology with personalized AI-generated horoscopes.
aiBot копирайтер
Effortlessly enhance your text with aiBot копирайтер.
PageSage
PageSage simplifies web browsing by generating questions and answers instantly.
GPU Finder
GPU Finder helps discover available GPU instances from global public cloud providers.
Skyworker
AI-powered platform for tech job seekers and recruiters.
Craft
Craft is a powerful document creation and collaboration tool for teams and individuals.
GottaMeme. AI Meme Generator
Create hilarious memes effortlessly with GottaMeme's AI-powered generator.
Recap
Easily summarize any webpage portion with Recap, an open-source browser extension utilizing ChatGPT.
kimi quick test 20250417-121312223
Kimi est un outil AI innovant conçu pour la productivité et le soutien.
Magazine Luiza
Efficient shopping assistant for Magazine Luiza users.
sharkfoto svip test 202512241034
SharkFoto est une plateforme propulsée par l'IA pour créer et éditer facilement des vidéos, des images et de la musique.
Bigjpg AI
Bigjpg enhances image quality through advanced AI upscaling.
kimi test 20250328-3
Améliorez, transformez et éditez des images avec des outils alimentés par l'IA gratuitement.
viddo.ai
Veo3 by Viddo AI enables AI-powered text or image to high-quality video creation rapidly.
Simplifly
Summarize lengthy articles easily with Simplifly.
BearGPT - Chatgpt Enhancer
Enhance your ChatGPT experience with BearGPT for better navigation and customization.
2026 Face Swap
FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR
TextPal
TextPal utilizes AI to summarize and manage webpage text effortlessly.
AlgoDocs
AlgoDocs: AI-powered document data extraction made easy.
Audioread: Ultra-Realistic Text-to-Speech
Listen to articles with ultra-realistic AI voices.
GPTXtend
Enhance your ChatGPT experience with powerful sharing tools.
Free Email Extractor from Website
Free email extraction tool for scraping emails, phone numbers, and social profiles from websites.
Skypher
Streamline your security reviews with Skypher's automation.
AI PDF chatbot agent built with LangChain & LangGraph
SharkFoto propose des outils d’édition photo gratuits alimentés par l’IA pour la suppression d’arrière-plan, la colorisation, l’amélioration et le redimensionnement d’images.
Wan 2.2-test
Wan 2 AI offers fast, high-quality 1080p AI video generation with advanced motion control.
Tappy AI
AI browser extension for adding thoughtful comments to LinkedIn posts.
sharkfoto-svip-092202
SharkFoto offers free AI-powered image editing tools like background removal and coloring.
Letz DM
Automate TikTok influencer marketing without the hassle.
Belly Buddy
Track food intake and digestive symptoms with Belly Buddy.
sharkfoto svip test 202509221443
SharkFoto offers free AI-powered photo editing tools for automatic background removal and image enhancement.
sharkfoto-svip-0922-changename
SharkFoto propose des outils photo gratuits alimentés par l'IA pour supprimer automatiquement les arrière-plans et améliorer les images.
Alltum
Organizes emails, tasks, and files with AI-driven project management.

Le MIT dévoile le framework EnCompass pour optimiser les performances des agents IA via la recherche

Des chercheurs du MIT CSAIL présentent EnCompass, un framework révolutionnaire qui utilise le backtracking et la recherche parallèle pour améliorer considérablement la fiabilité et l'efficacité des agents IA.