Inception Labs lance Mercury 2 : le LLM de raisonnement le plus rapide au monde atteint plus de 1 000 tokens par seconde grâce à une architecture de diffusion

Inception Labs brise les limites de vitesse avec Mercury 2 : le premier modèle de raisonnement basé sur la diffusion (Diffusion-Based Reasoning Model)

Dans un moment décisif pour l’intelligence artificielle générative (Generative AI), Inception Labs a officiellement lancé Mercury 2, un modèle de langage révolutionnaire qui réimagine fondamentalement la manière dont les machines génèrent du texte. En abandonnant l’architecture autorégressive (autoregressive architecture) standard de l’industrie au profit d’un traitement parallèle basé sur la diffusion (diffusion-based parallel processing), Mercury 2 atteint un débit phénoménal de plus de 1 000 tokens par seconde sur les GPU NVIDIA Blackwell. Ce lancement marque la première fois qu'un modèle capable de raisonnement brise le « mur de la latence » qui a longtemps limité les applications d'IA en temps réel, offrant une solution cinq à dix fois plus rapide que ses concurrents les plus proches tout en réduisant considérablement les modèles de tarification actuels.

La fin du goulot d'étranglement autorégressif

Pendant des années, le paysage des grands modèles de langage (Large Language Models - LLM) a été dominé par les transformers autorégressifs. Des modèles comme GPT-4 et Claude génèrent du texte de manière séquentielle, prédisant un token (environ un mot ou une partie de mot) à la fois. Bien qu'efficace, ce processus sériel crée une limite de vitesse inévitable : le modèle ne peut pas générer la fin d'une phrase avant d'en avoir terminé le début. À mesure que les modèles ont grandi et que les tâches de raisonnement sont devenues plus complexes, cette approche « token par token » est devenue un goulot d'étranglement pour les applications sensibles à la latence.

Mercury 2 démantèle ce paradigme en utilisant une architecture de diffusion. Au lieu de « taper » une réponse de manière séquentielle, Mercury 2 agit davantage comme un sculpteur révélant une statue à partir d'un bloc de marbre. Il commence par un brouillon bruyant et grossier de l'ensemble de la réponse et affine tous les tokens simultanément par étapes parallèles. Cela permet au modèle de « voir » le futur de la phrase tout en corrigeant le début, permettant une cohérence globale et une autocorrection que les modèles séquentiels peinent à atteindre sans un retour sur trace (backtracking) coûteux.

Selon Inception Labs, ce changement architectural permet à Mercury 2 de générer des sorties de raisonnement complexes avec une latence de bout en bout de seulement 1,7 seconde, soit une fraction du temps requis par les modèles traditionnels pour des tâches similaires.

Performances et économie inégalées

Les mesures de performance publiées par Inception Labs décrivent un modèle qui occupe une nouvelle catégorie d'efficacité. Fonctionnant sur le matériel NVIDIA Blackwell, Mercury 2 atteint un débit d'environ 1 009 tokens par seconde (TPS). Pour situer le contexte, les modèles autorégressifs de pointe optimisés pour la vitesse plafonnent généralement entre 70 et 100 TPS.

Crucialement, cette vitesse ne semble pas se faire au détriment de la capacité de raisonnement. Sur le benchmark AIME 2025, qui teste le raisonnement mathématique avancé, Mercury 2 a obtenu un score de 91,1, surpassant de manière significative les modèles plus petits axés sur la vitesse et rivalisant directement avec des modèles frontières (frontier models) beaucoup plus grands.

Inception Labs a également positionné Mercury 2 comme un perturbateur de coûts. Le modèle est proposé au prix de 0,25 $ par million de tokens d'entrée et 0,75 $ par million de tokens de sortie. Cette stratégie tarifaire undercut de manière significative les principaux concurrents, rendant l'IA de haute vitesse et de qualité raisonnement accessible pour les charges de travail d'entreprise à gros volume.

Analyse comparative : Mercury 2 contre le reste du secteur

Pour comprendre l'ampleur de ce saut technologique, il est essentiel de comparer Mercury 2 à la génération actuelle de modèles « rapides », tels que Claude 4.5 Haiku et GPT-5 Mini. Les données suggèrent qu'Inception Labs a réalisé une amélioration d'un ordre de grandeur du débit.

Tableau 1 : Comparaison des performances et des coûts

Nom du modèle	Architecture	Débit (Tokens/Sec)	Coût d'entrée (par 1M)	Coût de sortie (par 1M)	Benchmark AIME
Mercury 2	Diffusion	~1 009	0,25 $	0,75 $	91,1
Claude 4.5 Haiku	Autorégressive	~89	1,00 $	5,00 $	39,0
GPT-5 Mini	Autorégressive	~71	N/A	N/A	27,0
Gemini 3 Flash	Autorégressive	~100	0,50 $	3,00 $	N/A

Note : Les scores de benchmark et les vitesses sont basés sur les données publiées par Inception Labs et des benchmarks précoces indépendants cités dans les rapports techniques.

Raisonnement en temps réel : une nouvelle frontière pour les agents

Les implications de Mercury 2 s'étendent au-delà des simples benchmarks bruts. La faible latence du modèle est sur le point de révolutionner le déploiement des agents IA (AI agents). Dans les flux de travail complexes où une IA doit planifier, utiliser des outils et itérer, les modèles traditionnels introduisent souvent des secondes de retard à chaque étape, ce qui entraîne des expériences utilisateur fastidieuses. Les capacités de traitement de Mercury 2 en moins d'une seconde permettent des « boucles serrées » (tight loops) où les agents peuvent réfléchir, agir et se corriger presque instantanément.

Ceci est particulièrement pertinent pour l'IA vocale, les assistants de codage et la recherche en temps réel, où les utilisateurs s'attendent à des réponses quasi instantanées. Un assistant de codage alimenté par Mercury 2, par exemple, pourrait refactoriser un fichier entier de code dans le temps qu'il faut à un modèle standard pour écrire les premières lignes.

Disponibilité dans l'industrie

Inception Labs a rendu Mercury 2 disponible immédiatement via une API compatible avec OpenAI, permettant aux développeurs de l'intégrer dans l'infrastructure existante avec un minimum de friction. Le modèle prend en charge une fenêtre de contexte (context window) de 128k, l'appel d'outils (tool calling) et les sorties JSON structurées, garantissant qu'il répond aux exigences pratiques des environnements de production modernes.

Alors que l'industrie de l'IA continue de chercher la « prochaine grande étape » au-delà du Transformer, Mercury 2 apporte un argument convaincant selon lequel l'avenir pourrait résider dans la diffusion. En résolvant le goulot d'étranglement de la vitesse d'inférence, Inception Labs a non seulement lancé un modèle plus rapide, mais a potentiellement redéfini les attentes de base sur ce que l'IA en temps réel peut accomplir.