Inception Labs、Mercury 2を発表：拡散アーキテクチャにより世界最速の推論LLMが毎秒1,000トークン超を実現

Inception Labs が Mercury 2 で速度制限を打破：初の拡散ベースの推論モデル

生成式 AI（Generative AI）にとって決定的な瞬間として、Inception Labs は、マシンのテキスト生成方法を根本的に再構想する画期的な言語モデル「Mercury 2」を正式にリリースしました。業界標準の自己回帰型アーキテクチャ（Autoregressive architecture）を捨て、拡散ベース（Diffusion-based）の並列処理を採用することで、Mercury 2 は NVIDIA Blackwell GPU 上で毎秒 1,000 トークンを超える驚異的なスループットを実現しました。このリリースは、推論能力を持つモデルが、長らくリアルタイム AI アプリケーションを制約してきた「レイテンシの壁」を初めて突破したことを意味し、現在の価格モデルを大幅に下回りながら、最も近い競合他社よりも 5 倍から 10 倍高速なソリューションを提供します。

自己回帰型ボトルのネックの解消

長年、大規模言語モデル（LLM）の展望は自己回帰型トランスフォーマーによって支配されてきました。GPT-4 や Claude などのモデルは、一度に 1 つのトークン（大まかに 1 つの単語または単語の一部）を予測し、テキストを逐次的に生成します。このシリアルプロセスは効果的ではあるものの、回避不可能な速度制限を生み出します。つまり、モデルは文の冒頭を書き終える前に文末を生成することができません。モデルが巨大化し、推論タスクがより複雑になるにつれて、この「トークンごと」のアプローチは、レイテンシに敏感なアプリケーションにとってボトルネックとなってきました。

Mercury 2 は、拡散アーキテクチャを利用することでこのパラダイムを解体します。Mercury 2 は、回答を逐次的に「タイピング」するのではなく、大理石のブロックから像を削り出す彫刻家のように振る舞います。まず回答全体のノイズの多いラフドラフトから開始し、並列ステップですべてのトークンを同時に洗練させていきます。これにより、モデルは文の先を見通しながら冒頭を修正することが可能になり、逐次型モデルが高価なバックトラッキングなしでは達成に苦労する、全域的な一貫性と自己修正を実現します。

Inception Labs によれば、このアーキテクチャの転換により、Mercury 2 はわずか 1.7 秒というエンドツーエンドのレイテンシで複雑な推論出力を生成できます。これは、同様のタスクに対して従来のモデルが必要とする時間のわずかな一部にすぎません。

比類なきパフォーマンスと経済性

Inception Labs が発表したパフォーマンス指標は、このモデルが新しいカテゴリーの効率性を占めていることを示しています。NVIDIA Blackwell ハードウェア上で動作する Mercury 2 は、約 1,009 トークン/秒（TPS）のスループットを達成しました。参考までに、主要な速度最適化済み自己回帰モデルのスループットは、通常 70 から 100 TPS の間に留まります。

重要なのは、この速度が推論能力を犠牲にして実現されたものではないという点です。高度な数学的推論をテストする AIME 2025 ベンチマークにおいて、Mercury 2 は 91.1 というスコアを記録し、速度重視の小型モデルを大幅に上回り、はるかに巨大なフロンティアモデルと直接競合しています。

また、Inception Labs は Mercury 2 をコスト・ディスラプター（価格破壊者）として位置づけています。このモデルの価格は、入力トークン 100 万回あたり 0.25 ドル、出力トークン 100 万回あたり 0.75 ドルに設定されています。この価格戦略は主要な競合他社を大幅に下回っており、高速で推論グレードの AI を、大量のエンタープライズ・ワークロードで利用可能にします。

比較分析：Mercury 2 対既存モデル

この飛躍の大きさを理解するには、Mercury 2 を Claude 4.5 Haiku や GPT-5 Mini といった現世代の「高速」モデルと比較することが不可欠です。データは、Inception Labs がスループットにおいて桁違いの改善を達成したことを示唆しています。

表 1: パフォーマンスとコストの比較

モデル名	アーキテクチャ	スループット (トークン/秒)	入力コスト (1Mあたり)	出力コスト (1Mあたり)	AIME ベンチマーク
Mercury 2	拡散	~1,009	$0.25	$0.75	91.1
Claude 4.5 Haiku	自己回帰	~89	$1.00	$5.00	39.0
GPT-5 Mini	自己回帰	~71	N/A	N/A	27.0
Gemini 3 Flash	自己回帰	~100	$0.50	$3.00	N/A

注：ベンチマークスコアと速度は、Inception Labs が発表したデータおよび技術レポートで引用された独立した初期ベンチマークに基づいています。

リアルタイム推論：エージェントの新たなフロンティア

Mercury 2 の影響は、生のベンチマークにとどまりません。このモデルの低レイテンシは、AI エージェントの展開に革命をもたらそうとしています。AI が計画を立て、ツールを使用し、反復する必要がある複雑なワークフローにおいて、従来のモデルは各ステップで数秒の遅延を伴うことが多く、結果としてユーザー体験を低下させていました。Mercury 2 の 1 秒未満の処理能力により、エージェントがほぼ瞬時に思考し、行動し、自らを修正できる「タイトなループ」が可能になります。

これは、ユーザーがほぼ即時の応答を期待する音声 AI、コーディングアシスタント、リアルタイム検索において特に重要です。例えば、Mercury 2 を搭載したコーディングアシスタントは、標準的なモデルが最初の数行を書いている間に、コードファイル全体をリファクタリングできる可能性があります。

業界での利用可能性

Inception Labs は、OpenAI 互換の API を通じて Mercury 2 を即時提供開始しており、開発者は最小限の摩擦で既存のインフラに組み込むことができます。このモデルは 128k のコンテキストウィンドウ、ツール呼び出し、および構造化された JSON 出力をサポートしており、現代のプロダクション環境の実践的な要求を確実に満たしています。

AI 業界がトランスフォーマーを超えた「次なる大きなもの」を模索し続ける中、Mercury 2 は、未来が拡散モデルにあるかもしれないという説得力のある論拠を提示しました。推論速度のボトルネックを解消することで、Inception Labs は単に高速なモデルをリリースしただけでなく、リアルタイム AI が達成できることの基準値を潜在的に再設定したのです。