AI News

MIT und Asari AI stellen EnCompass vor: Ein Paradigmenwechsel für zuverlässige KI-Agenten

Die Entwicklung autonomer KI-Agenten (AI Agents) wurde lange Zeit durch eine beständige Herausforderung behindert: das Problem der Fehlerkumulierung (Compounding Error Problem). Während Large Language Models (LLMs) komplexe, mehrstufige Workflows ausführen, kann eine einzige Halluzination (Hallucination) oder ein logischer Fehltritt einen gesamten Prozess zum Scheitern bringen, was lang laufende Agenten für kritische Unternehmensaufgaben unzuverlässig macht. In einem bedeutenden Durchbruch, der diese Woche bekannt gegeben wurde, haben Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT und das Startup Asari AI EnCompass vorgestellt, ein neuartiges Framework, das darauf ausgelegt ist, diese Zuverlässigkeitskrise zu lösen, indem es die Art und Weise, wie Agenten Code ausführen, grundlegend neu konzipiert.

EnCompass wurde auf der NeurIPS 2025-Konferenz präsentiert und wird nun in einem viel diskutierten Paper detailliert beschrieben. Es führt das Konzept der "Inferenzzeit-Suche (Inference-time Search)" in die Agentenprogrammierung ein. Durch die Entkopplung der Kernlogik des Agenten von den Strategien, die zur Suche nach korrekten Ergebnissen verwendet werden, ermöglicht das Framework Entwicklern die Implementierung anspruchsvoller Fehlerbehebungsmechanismen – wie Backtracking und parallele Exploration –, ohne ihre gesamte Codebasis umschreiben zu müssen.

Die Herausforderung: Die Fragilität von „Program-in-Control“-Agenten

Um die Bedeutung von EnCompass zu verstehen, muss man zunächst die Architektur moderner KI-Agenten verstehen. Viele Agenten der Unternehmensklasse arbeiten nach einem „Program-in-Control“-Modell, bei dem ein Entwickler einen spezifischen Workflow definiert (z. B. „diesen Code übersetzen“, „diesen Finanzbericht analysieren“, „eine Hypothese generieren“) und das LLM aufgerufen wird, um spezifische Teilaufgaben auszuführen.

Obwohl diese Systeme leistungsfähig sind, sind sie anfällig. LLMs sind nicht-deterministisch; sie können in einem Moment eine brillante Antwort geben und im nächsten eine Halluzination. In einem Workflow mit Dutzenden von Schritten nähert sich die Wahrscheinlichkeit eines fatalen Fehlers der Gewissheit. Traditionell haben Entwickler versucht, dies durch das Schreiben von umfangreichem „Glue Code“ abzumildern – manuelle Schleifen, Retry-Logik und bedingte Prüfungen, um Fehler abzufangen. Dieser Ansatz führt jedoch oft zu aufgeblähten, unüberschaubaren Codebasen, in denen die Fehlerbehandlungslogik die eigentliche Aufgabenlogik in den Schatten stellt.

EnCompass adressiert dies, indem es die Ausführung eines Agenten nicht als linearen Pfad, sondern als Suchproblem betrachtet. Anstatt darauf zu hoffen, dass das Modell jeden Schritt richtig macht, erkennt das Framework an, dass der „richtige“ Pfad in einem Baum von Möglichkeiten verborgen ist, und bietet die Werkzeuge, um diesen Baum effizient zu navigieren.

Entkopplung von Logik und Suche: Das PAN-Modell

Im Herzen von EnCompass liegt eine theoretische Innovation namens Probabilistischer Engelhafter Nondeterminismus (Probabilistic Angelic Nondeterminism - PAN). Dieses Programmiermodell ermöglicht es Entwicklern, das „Was“ – die Abfolge der Schritte, die der Agent ausführen soll – getrennt vom „Wie“ – der Strategie zur Navigation durch diese Schritte – zu schreiben.

In der Praxis wird dies durch einen Python-Decorator, @encompass.compile, erreicht. Wenn ein Entwickler die Funktion seines Agenten mit diesem Decorator umschließt, kompiliert EnCompass den Workflow in einen Suchraum. Stellen im Code, an denen das LLM abgefragt wird, werden als „Verzweigungspunkte“ (Branchpoints) behandelt – Gabelungen im Weg, an denen die Ausführung divergieren kann.

Diese Trennung bietet tiefgreifende Vorteile:

  • Modularität: Entwickler können die Suchstrategie ändern (vom einfachen Sampling zu komplexen Baumsuchen wechseln), indem sie einen einzigen Parameter ändern, ohne den Workflow-Code anzurühren.
  • Sauberkeit: Die Kernlogik bleibt lesbar und auf die Aufgabe konzentriert, befreit von komplexen Retry-Schleifen.
  • Leistungsfähigkeit: Fortgeschrittene Suchalgorithmen, die zuvor manuell zu schwer zu implementieren waren, werden standardmäßig zugänglich.

Technischer Tiefgang: Backtracking und parallele Ausführung

Das EnCompass-Framework stattet Agenten mit Fähigkeiten aus, die der menschlichen Problemlösung nachempfunden sind. Wenn ein menschlicher Experte in eine Sackgasse gerät, kehrt er zu einer vorherigen Annahme zurück und versucht einen anderen Ansatz. EnCompass ermöglicht es KI-Agenten, dasselbe programmatisch zu tun.

Das Framework unterstützt out-of-the-box mehrere Suchstrategien, sodass Entwickler je nach Anwendungsfall auf Geschwindigkeit, Kosten oder Genauigkeit optimieren können.

Tabelle: Von EnCompass unterstützte Suchstrategien

Strategie Beschreibung Bester Anwendungsfall
Beam Search Exploriert mehrere vielversprechende Pfade parallel und behält bei jedem Schritt nur die besten k Kandidaten bei. Aufgaben mit hohem Risiko, die ein Gleichgewicht zwischen Breite und Geschwindigkeit erfordern.
Monte Carlo Tree Search (MCTS) Nutzt Simulationen, um den langfristigen Wert aktueller Entscheidungen abzuschätzen, und konzentriert die Ressourcen auf die vielversprechendsten Zweige. Komplexe, mehrstufige Argumentationsaufgaben, bei denen frühe Entscheidungen verzögerte Konsequenzen haben.
Best-of-N Sampling Generiert mehrere unabhängige Lösungen und wählt die beste basierend auf einer Verifizierer-Bewertung (Verifier Score) aus. Aufgaben mit leicht verifizierbaren Ausgaben, wie Code-Generierung oder mathematische Probleme.
Backtracking (DFS) Exploriert einen Pfad tiefgehend und kehrt zu einem vorherigen Zustand zurück, wenn eine Fehlerbedingung erfüllt ist. Ressourcenbeschränkte Umgebungen, in denen das Finden einer gültigen Lösung ausreicht.

Durch die Standardisierung dieser Strategien ermöglicht EnCompass einem Agenten, der versucht, eine Java-Codebasis in Python zu übersetzen, gleichzeitig mehrere Übersetzungsoptionen für eine schwierige Funktion zu explorieren. Wenn ein Pfad zu Code führt, der nicht kompiliert werden kann, kann der Agent ihn verwerfen und mit einer praktikablen Alternative fortfahren, was alles automatisch von der Runtime-Engine übernommen wird.

Erprobte Leistung: Die Java-zu-Python Fallstudie

Die Forscher validierten EnCompass durch strenges Benchmarking, insbesondere durch eine Fallstudie zur automatisierten Übersetzung von Java-Repositories in Python – eine Aufgabe, die für ihre Anforderungen an hohe Präzision und Kontextbewusstsein bekannt ist.

Die Ergebnisse, wie in der Bekanntgabe von MIT CSAIL detailliert beschrieben, waren beeindruckend. Agenten, die mit EnCompass erweitert wurden, zeigten eine Verbesserung der Übersetzungsgenauigkeit um 15 % bis 40 % im Vergleich zu Standard-Agenten, die keine Suche verwendeten. Vielleicht noch beeindruckender für die Entwickler-Community war die Reduzierung der Code-Komplexität. Die Implementierung der Suchlogik über EnCompass erforderte etwa 80 % weniger Codezeilen als die manuelle Implementierung derselben Funktionalität.

Dieser Effizienzgewinn legt nahe, dass EnCompass die Erstellung robuster KI-Agenten demokratisieren könnte. Kleinere Teams, die sich zuvor den technischen Aufwand für den Aufbau maßgeschneiderter Suchalgorithmen nicht leisten konnten, können nun Agenten einsetzen, die mit der Zuverlässigkeit der von Tech-Giganten entwickelten Systeme konkurrieren.

Auswirkungen auf die Industrie: Zuverlässigkeit im großen Maßstab

Für den Unternehmenssektor signalisiert die Ankunft von EnCompass eine Reifung des KI-Engineerings (AI Engineering). Wir bewegen uns von der Ära des „Prompt Engineering“ – dem Anpassen von Texten, um ein Modell zur Arbeit zu bewegen – hin zum „Flow Engineering“ und „Search Engineering“, wo systemische Architektur Zuverlässigkeit garantiert.

Zhening Li, der Hauptautor und Forscher am MIT CSAIL sowie bei Asari AI, betonte, dass EnCompass kein Ersatz für Frameworks wie LangChain ist, sondern eine ergänzende Schicht. Während LangChain die Werkzeuge und Prompts orchestriert, verwaltet EnCompass die Entscheidungsfindungs-Trajektorie.

Wichtige Auswirkungen für Enterprise AI:

  1. Vorhersehbarkeit: Durch die Validierung mehrerer Pfade ist es weniger wahrscheinlich, dass Agenten „halluzinierte“ oder nicht funktionierende Ergebnisse liefern.
  2. Auditierbarkeit: Die Trennung von Suche und Logik erleichtert das Debugging der Frage, warum ein Agent eine bestimmte Entscheidung getroffen hat.
  3. Skalierbarkeit: Da Agenten längere Horizonte bewältigen – wie den Entwurf von Hardware-Blaupausen oder die Durchführung wissenschaftlicher Experimente –, wird die Fähigkeit, sich ohne Neustart von Fehlern zu erholen, entscheidend.

Ausblick: Die Zukunft der agentischen Suche

Die Veröffentlichung von EnCompass steht im Einklang mit einem breiteren Trend in der KI-Branche: dem Übergang zum „Inferenzzeit-Computing“ (Inference-time Compute). Genau wie OpenAIs jüngste Reasoning-Modelle mehr Zeit dem „Nachdenken“ widmen, bevor sie antworten, ermöglichen Frameworks wie EnCompass Entwicklern, Rechenressourcen gegen höhere Zuverlässigkeit auf der Anwendungsebene einzutauschen.

Asari AI und das MIT-Team stellen sich eine Zukunft vor, in der EnCompass es Agenten ermöglicht, als echte Kollaborateure bei Entdeckungen zu fungieren. Stellen Sie sich einen Agenten vor, der mit dem Entwurf einer neuen chemischen Verbindung beauftragt ist. Mithilfe von MCTS über EnCompass könnte der Agent Tausende potenzieller molekularer Strukturen untersuchen, bei einem unmöglichen Syntheseweg zurückkehren und dem menschlichen Wissenschaftler nur die praktikabelsten Kandidaten präsentieren.

Durch die effektive Lösung des Problems der Fehlerakkumulation könnte EnCompass genau die fehlende Infrastruktur sein, die benötigt wird, um KI-Agenten von experimentellen Spielzeugen zu kritischen Produktionssystemen zu machen.

Referenzen und weiterführende Literatur

  • MIT News: „Helping AI agents search to get best results from LLMs“ (Feb 2026)
  • HPCWire: „New MIT Framework Uses Search to Handle LLM Errors in AI Agents“
  • Artificial Intelligence News: „How separating logic and search boosts AI agent scalability“
  • NeurIPS 2025 Proceedings: „ENCOMPASS: Enhancing Agent Programming with Search Over Program Execution Paths“
Ausgewählt
ex ads 202603311112
1111111111111
BlazeGard
Blazeguard bietet unparalleled Brandschutz durch innovative feuerfeste Verkleidungstechnologie.
Test Face Swap
Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap
Midjourney for Slack
Bringen Sie KI-generierte Bilder direkt in Ihren Slack-Arbeitsbereich mit Midjourney für Slack.
AI Bot Eye
Verwandeln Sie Ihre Sicherheit mit KI-gesteuerter Überwachungstechnologie.
amy
Amy ist ein umfassender Arbeitsplatzassistent, der Aufgaben rationalisiert, Meetings plant und Projekte verwaltet.
sharkfoto-20250108-quick
Remove background from the image with just one click and convert the image to or from 200+ formats.
test 2 face swap 2
test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face
Gptzero me
GPTZero ist ein Tool zur genauen und einfachen Erkennung von KI-generierten Texten.
sharkfoto-20250108-free
AI-powered tool for background removal and image conversion in over 200 formats.
BGRemover
Entfernen Sie ganz einfach Hintergründe von Bildern online mit SharkFoto BGRemover.
sharkfoto agent test 202510111844
SharkFoto offers AI-powered free photo editing tools including background removal and colorization.
WorkViz
Workviz: Eine KI-gestützte Plattform zur Optimierung der Teamleistung durch umfassende Analysen.
FreeAiKit
FreeAiKit bietet eine Sammlung kostenloser AI-Tools für verschiedene Content-Erstellungsbedürfnisse.
TAROT ARCANA
Enthüllen Sie Ihre Zukunft mit Tarot Arcana, einer KI-gestützten Tarot-Lese-App.
Skywork
Skywork verwandelt einfache Eingaben in multimodale Inhalte wie Berichte und Folien.
sharkfoto svip 20250715
BrowseGPTs
Täglich aktualisierter Katalog für verschiedene ChatGPT-Modelle.
blockbank
All-in-One-Krypto-Neo-Banking-App, die DeFi- und CeFi-Technologien kombiniert.
Sharkfoto Quick 091801
SharkFoto offers free AI-powered image editing tools including background removal and photo colorization.
Neuronwriter
Fortschrittliches Tool zur Inhaltsoptimierung mit semantischen Modellen.
Novel
Novel hilft Ihnen, ein umfassendes professionelles Profil zu erstellen.
AI Fortunist (AI-Powered Tarot Readings)
AI Fortunist bietet personalisierte Tarot-Lesungen, Kaffee-Lesungen und Trauminterpretationen mithilfe fortschrittlicher KI.
ParrotPDF
ParrotPDF ermöglicht es Benutzern, interaktiv mit PDF-Dateien zu arbeiten.
Flove
Flove ist eine minimalistische Bewegungsverfolgungs-App mit innovativen Funktionen.
Franklin AI
KI-Tool zur Rationalisierung von Geschäftsabläufen und zur Verbesserung der Entscheidungsfindung.
Durable AI
KI-gesteuerter Website-Builder, um Ihr Unternehmen in 30 Sekunden online zu bringen.
JungGPT
Ein KI-Tool für emotionale Reflexion und psychologische Einsichten.
ChartX
AI-gestützte medizinische Dokumentation für effiziente und genaue Patientenversorgung.
eztalks-20250226-0424003
Entfernen Sie Hintergründe aus Bildern und konvertieren Sie Bildformate mühelos mit SharkFoto.
Udemy Summary with ChatGPT
Fassen Sie Udemy-Videos mit ChatGPT zusammen und machen Sie mühelos Notizen.
Astro Answer New Tab
Entdecken Sie Astrologie mit personalisierten, von KI generierten Horoskopen.
aiBot копирайтер
Verbessern Sie mühelos Ihren Text mit aiBot копирайтер.
PageSage
PageSage vereinfacht das Surfen im Web, indem es sofort Fragen und Antworten generiert.
GPU Finder
GPU Finder hilft dabei, verfügbare GPU-Instanzen von globalen öffentlichen Cloud-Anbietern zu entdecken.
Skyworker
KI-gesteuerte Plattform für technische Jobuchsuchende und Recruiter.
Craft
Craft ist ein leistungsstarkes Dokumentenerstellungs- und Kollaborationstool für Teams und Einzelpersonen.
GottaMeme. AI Meme Generator
Erstellen Sie mühelos lustige Memes mit dem KI-gestützten Generator von GottaMeme.
Recap
Fassen Sie jeden Abschnitt einer Webseite ganz einfach mit Recap zusammen, einer Open-Source-Browsererweiterung, die ChatGPT nutzt.
kimi quick test 20250417-121312223
Eine innovative Plattform zur Steigerung der persönlichen Produktivität.
Magazine Luiza
Effizienter Einkaufsassistent für Magazine Luiza-Nutzer.
sharkfoto svip test 202512241034
SharkFoto ist eine KI-gestützte Plattform zum mühelosen Erstellen und Bearbeiten von Videos, Bildern und Musik.
Bigjpg AI
Bigjpg verbessert die Bildqualität durch fortschrittliches KI-Hochskalieren.
kimi test 20250328-3
Verbessern, verwandeln und bearbeiten Sie Bilder mit KI-gestützten Tools kostenlos.
viddo.ai
Veo3 by Viddo AI enables AI-powered text or image to high-quality video creation rapidly.
Simplifly
Fassen Sie lange Artikel mit Simplifly einfach zusammen.
BearGPT - Chatgpt Enhancer
Verbessern Sie Ihr ChatGPT-Erlebnis mit BearGPT für eine bessere Navigation und Anpassung.
2026 Face Swap
2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Fac
TextPal
TextPal nutzt KI, um Webseitentexte mühelos zusammenzufassen und zu verwalten.
AlgoDocs
AlgoDocs: KI-gestützte Dokumentendatenextraktion leicht gemacht.
Audioread: Ultra-Realistic Text-to-Speech
Hören Sie Artikel mit ultra-realistischen KI-Stimmen.
GPTXtend
Verbessern Sie Ihr ChatGPT-Erlebnis mit leistungsstarken Sharing-Tools.
Free Email Extractor from Website
Kostenloses E-Mail-Extraktionswerkzeug zum Scraping von E-Mails, Telefonnummern und sozialen Profilen von Webseiten.
Skypher
Optimieren Sie Ihre Sicherheitsprüfungen mit der Automatisierung von Skypher.
AI PDF chatbot agent built with LangChain & LangGraph
SharkFoto bietet kostenlose KI-gestützte Foto-Bearbeitungstools für Hintergrundentfernung, Kolorierung, Verbesserung und Größenänderung von Bildern an.
Wan 2.2-test
Wan 2 AI offers fast, high-quality 1080p AI video generation with advanced motion control.
Tappy AI
AI-Browsererweiterung zum Hinzufügen von durchdachten Kommentaren zu LinkedIn-Posts.
sharkfoto-svip-092202
SharkFoto offers free AI-powered image editing tools like background removal and coloring.
Letz DM
Automatisiere das Influencer-Marketing auf TikTok ohne Aufwand.
Belly Buddy
Verfolge die Nahrungsaufnahme und Verdauungssymptome mit Belly Buddy.
sharkfoto svip test 202509221443
SharkFoto offers free AI-powered photo editing tools for automatic background removal and image enhancement.
sharkfoto-svip-0922-changename
SharkFoto bietet kostenlose KI-gestützte Fotowerkzeuge, um Hintergründe automatisch zu entfernen und Bilder zu verbessern.
Alltum
Organisiert E-Mails, Aufgaben und Dateien mit KI-gestütztem Projektmanagement.

MIT stellt EnCompass-Framework vor, um die Leistung von KI‑Agenten durch Suche zu optimieren

Forscher am MIT CSAIL präsentieren EnCompass, ein bahnbrechendes Framework, das Backtracking und parallele Suche nutzt, um die Zuverlässigkeit und Effizienz von KI‑Agenten deutlich zu verbessern.