AI News

Inception Labs brise les limites de vitesse avec Mercury 2 : le premier modèle de raisonnement basé sur la diffusion (Diffusion-Based Reasoning Model)

Dans un moment décisif pour l’intelligence artificielle générative (Generative AI), Inception Labs a officiellement lancé Mercury 2, un modèle de langage révolutionnaire qui réimagine fondamentalement la manière dont les machines génèrent du texte. En abandonnant l’architecture autorégressive (autoregressive architecture) standard de l’industrie au profit d’un traitement parallèle basé sur la diffusion (diffusion-based parallel processing), Mercury 2 atteint un débit phénoménal de plus de 1 000 tokens par seconde sur les GPU NVIDIA Blackwell. Ce lancement marque la première fois qu'un modèle capable de raisonnement brise le « mur de la latence » qui a longtemps limité les applications d'IA en temps réel, offrant une solution cinq à dix fois plus rapide que ses concurrents les plus proches tout en réduisant considérablement les modèles de tarification actuels.

La fin du goulot d'étranglement autorégressif

Pendant des années, le paysage des grands modèles de langage (Large Language Models - LLM) a été dominé par les transformers autorégressifs. Des modèles comme GPT-4 et Claude génèrent du texte de manière séquentielle, prédisant un token (environ un mot ou une partie de mot) à la fois. Bien qu'efficace, ce processus sériel crée une limite de vitesse inévitable : le modèle ne peut pas générer la fin d'une phrase avant d'en avoir terminé le début. À mesure que les modèles ont grandi et que les tâches de raisonnement sont devenues plus complexes, cette approche « token par token » est devenue un goulot d'étranglement pour les applications sensibles à la latence.

Mercury 2 démantèle ce paradigme en utilisant une architecture de diffusion. Au lieu de « taper » une réponse de manière séquentielle, Mercury 2 agit davantage comme un sculpteur révélant une statue à partir d'un bloc de marbre. Il commence par un brouillon bruyant et grossier de l'ensemble de la réponse et affine tous les tokens simultanément par étapes parallèles. Cela permet au modèle de « voir » le futur de la phrase tout en corrigeant le début, permettant une cohérence globale et une autocorrection que les modèles séquentiels peinent à atteindre sans un retour sur trace (backtracking) coûteux.

Selon Inception Labs, ce changement architectural permet à Mercury 2 de générer des sorties de raisonnement complexes avec une latence de bout en bout de seulement 1,7 seconde, soit une fraction du temps requis par les modèles traditionnels pour des tâches similaires.

Performances et économie inégalées

Les mesures de performance publiées par Inception Labs décrivent un modèle qui occupe une nouvelle catégorie d'efficacité. Fonctionnant sur le matériel NVIDIA Blackwell, Mercury 2 atteint un débit d'environ 1 009 tokens par seconde (TPS). Pour situer le contexte, les modèles autorégressifs de pointe optimisés pour la vitesse plafonnent généralement entre 70 et 100 TPS.

Crucialement, cette vitesse ne semble pas se faire au détriment de la capacité de raisonnement. Sur le benchmark AIME 2025, qui teste le raisonnement mathématique avancé, Mercury 2 a obtenu un score de 91,1, surpassant de manière significative les modèles plus petits axés sur la vitesse et rivalisant directement avec des modèles frontières (frontier models) beaucoup plus grands.

Inception Labs a également positionné Mercury 2 comme un perturbateur de coûts. Le modèle est proposé au prix de 0,25 $ par million de tokens d'entrée et 0,75 $ par million de tokens de sortie. Cette stratégie tarifaire undercut de manière significative les principaux concurrents, rendant l'IA de haute vitesse et de qualité raisonnement accessible pour les charges de travail d'entreprise à gros volume.

Analyse comparative : Mercury 2 contre le reste du secteur

Pour comprendre l'ampleur de ce saut technologique, il est essentiel de comparer Mercury 2 à la génération actuelle de modèles « rapides », tels que Claude 4.5 Haiku et GPT-5 Mini. Les données suggèrent qu'Inception Labs a réalisé une amélioration d'un ordre de grandeur du débit.

Tableau 1 : Comparaison des performances et des coûts

Nom du modèle Architecture Débit (Tokens/Sec) Coût d'entrée (par 1M) Coût de sortie (par 1M) Benchmark AIME
Mercury 2 Diffusion ~1 009 0,25 $ 0,75 $ 91,1
Claude 4.5 Haiku Autorégressive ~89 1,00 $ 5,00 $ 39,0
GPT-5 Mini Autorégressive ~71 N/A N/A 27,0
Gemini 3 Flash Autorégressive ~100 0,50 $ 3,00 $ N/A

Note : Les scores de benchmark et les vitesses sont basés sur les données publiées par Inception Labs et des benchmarks précoces indépendants cités dans les rapports techniques.

Raisonnement en temps réel : une nouvelle frontière pour les agents

Les implications de Mercury 2 s'étendent au-delà des simples benchmarks bruts. La faible latence du modèle est sur le point de révolutionner le déploiement des agents IA (AI agents). Dans les flux de travail complexes où une IA doit planifier, utiliser des outils et itérer, les modèles traditionnels introduisent souvent des secondes de retard à chaque étape, ce qui entraîne des expériences utilisateur fastidieuses. Les capacités de traitement de Mercury 2 en moins d'une seconde permettent des « boucles serrées » (tight loops) où les agents peuvent réfléchir, agir et se corriger presque instantanément.

Ceci est particulièrement pertinent pour l'IA vocale, les assistants de codage et la recherche en temps réel, où les utilisateurs s'attendent à des réponses quasi instantanées. Un assistant de codage alimenté par Mercury 2, par exemple, pourrait refactoriser un fichier entier de code dans le temps qu'il faut à un modèle standard pour écrire les premières lignes.

Disponibilité dans l'industrie

Inception Labs a rendu Mercury 2 disponible immédiatement via une API compatible avec OpenAI, permettant aux développeurs de l'intégrer dans l'infrastructure existante avec un minimum de friction. Le modèle prend en charge une fenêtre de contexte (context window) de 128k, l'appel d'outils (tool calling) et les sorties JSON structurées, garantissant qu'il répond aux exigences pratiques des environnements de production modernes.

Alors que l'industrie de l'IA continue de chercher la « prochaine grande étape » au-delà du Transformer, Mercury 2 apporte un argument convaincant selon lequel l'avenir pourrait résider dans la diffusion. En résolvant le goulot d'étranglement de la vitesse d'inférence, Inception Labs a non seulement lancé un modèle plus rapide, mais a potentiellement redéfini les attentes de base sur ce que l'IA en temps réel peut accomplir.

Vedettes
ex ads 202603311112
1111111111111
BlazeGard
Blazeguard provides unparalleled fire safety through innovative fire-rated sheathing technology.
Test Face Swap
FR FR FR FR FR FR FR FR FR FR FR FR FR
Midjourney for Slack
Bring AI-generated images directly to your Slack workspace with Midjourney for Slack.
AI Bot Eye
Transform your security with AI-driven surveillance technology.
amy
Amy is a comprehensive workplace assistant that streamlines tasks, schedules meetings, and manages projects.
sharkfoto-20250108-quick
Remove background from the image with just one click and convert the image to or from 200+ formats.
test 2 face swap 2
fr fr
Gptzero me
GPTZero is a tool to detect AI-generated text accurately and easily.
sharkfoto-20250108-free
AI-powered tool for background removal and image conversion in over 200 formats.
BGRemover
Easily remove image backgrounds online with SharkFoto BGRemover.
sharkfoto agent test 202510111844
SharkFoto offers AI-powered free photo editing tools including background removal and colorization.
WorkViz
Workviz: AI-powered platform optimizing team performance through comprehensive analytics.
FreeAiKit
FreeAiKit offers a collection of free AI tools for various content creation needs.
TAROT ARCANA
Unveil your future with Tarot Arcana, an AI-powered tarot reading app.
Skywork
Skywork transforme des entrées simples en contenus multimodaux tels que des rapports et des diapositives.
sharkfoto svip 20250715
BrowseGPTs
Daily updated directory for diverse ChatGPT models.
blockbank
All-in-one crypto neo banking app combining DeFi and CeFi technologies.
Sharkfoto Quick 091801
SharkFoto offers free AI-powered image editing tools including background removal and photo colorization.
Neuronwriter
Advanced tool for content optimization using semantic models.
Novel
Novel helps you craft a comprehensive professional profile.
AI Fortunist (AI-Powered Tarot Readings)
AI Fortunist provides personalized tarot readings, coffee readings, and dream interpretations using advanced AI.
ParrotPDF
ParrotPDF lets users engage with PDF files interactively.
Flove
Flove is a minimalist movement tracking app with innovative features.
Franklin AI
AI tool to streamline business operations and enhance decision-making.
Durable AI
AI-powered website builder to get your business online in 30 seconds.
JungGPT
An AI tool for emotional reflection and psychological insights.
ChartX
AI-powered medical documentation for efficient and accurate patient care.
eztalks-20250226-0424003
Supprimez les arrière-plans des images et convertissez les formats d’image sans effort avec SharkFoto.
Udemy Summary with ChatGPT
Summarize Udemy videos with ChatGPT and take notes effortlessly.
Astro Answer New Tab
Discover astrology with personalized AI-generated horoscopes.
aiBot копирайтер
Effortlessly enhance your text with aiBot копирайтер.
PageSage
PageSage simplifies web browsing by generating questions and answers instantly.
GPU Finder
GPU Finder helps discover available GPU instances from global public cloud providers.
Skyworker
AI-powered platform for tech job seekers and recruiters.
Craft
Craft is a powerful document creation and collaboration tool for teams and individuals.
GottaMeme. AI Meme Generator
Create hilarious memes effortlessly with GottaMeme's AI-powered generator.
Recap
Easily summarize any webpage portion with Recap, an open-source browser extension utilizing ChatGPT.
kimi quick test 20250417-121312223
Kimi est un outil AI innovant conçu pour la productivité et le soutien.
Magazine Luiza
Efficient shopping assistant for Magazine Luiza users.
sharkfoto svip test 202512241034
SharkFoto est une plateforme propulsée par l'IA pour créer et éditer facilement des vidéos, des images et de la musique.
Bigjpg AI
Bigjpg enhances image quality through advanced AI upscaling.
kimi test 20250328-3
Améliorez, transformez et éditez des images avec des outils alimentés par l'IA gratuitement.
viddo.ai
Veo3 by Viddo AI enables AI-powered text or image to high-quality video creation rapidly.
Simplifly
Summarize lengthy articles easily with Simplifly.
BearGPT - Chatgpt Enhancer
Enhance your ChatGPT experience with BearGPT for better navigation and customization.
2026 Face Swap
FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR FR
TextPal
TextPal utilizes AI to summarize and manage webpage text effortlessly.
AlgoDocs
AlgoDocs: AI-powered document data extraction made easy.
Audioread: Ultra-Realistic Text-to-Speech
Listen to articles with ultra-realistic AI voices.
GPTXtend
Enhance your ChatGPT experience with powerful sharing tools.
Free Email Extractor from Website
Free email extraction tool for scraping emails, phone numbers, and social profiles from websites.
Skypher
Streamline your security reviews with Skypher's automation.
AI PDF chatbot agent built with LangChain & LangGraph
SharkFoto propose des outils d’édition photo gratuits alimentés par l’IA pour la suppression d’arrière-plan, la colorisation, l’amélioration et le redimensionnement d’images.
Wan 2.2-test
Wan 2 AI offers fast, high-quality 1080p AI video generation with advanced motion control.
Tappy AI
AI browser extension for adding thoughtful comments to LinkedIn posts.
sharkfoto-svip-092202
SharkFoto offers free AI-powered image editing tools like background removal and coloring.
Letz DM
Automate TikTok influencer marketing without the hassle.
Belly Buddy
Track food intake and digestive symptoms with Belly Buddy.
sharkfoto svip test 202509221443
SharkFoto offers free AI-powered photo editing tools for automatic background removal and image enhancement.
sharkfoto-svip-0922-changename
SharkFoto propose des outils photo gratuits alimentés par l'IA pour supprimer automatiquement les arrière-plans et améliorer les images.
Alltum
Organizes emails, tasks, and files with AI-driven project management.

Inception Labs lance Mercury 2 : le LLM de raisonnement le plus rapide au monde atteint plus de 1 000 tokens par seconde grâce à une architecture de diffusion

Inception Labs a publié Mercury 2, un modèle de langage de raisonnement basé sur la diffusion qui génère plus de 1 000 tokens par seconde sur les GPU NVIDIA Blackwell — plus de cinq fois plus rapide que les principaux concurrents autorégressifs. Contrairement au décodage séquentiel traditionnel, Mercury 2 utilise un affinage parallèle des tokens, offrant une qualité de niveau raisonnement dans des budgets de latence temps réel pour un coût de $0.25 par million de tokens d'entrée.