Google、Gemini 3.1 Proを発表：ARC-AGI-2スコアを倍増し主要なAIベンチマークでトップに

Google、推論に特化した Gemini 3.1 Pro で AI の王座を奪還

人工知能（AI）の勢力図が再び劇的に変化しました。2026 年、急速に加速する「モデル戦争（Model Wars）」における優位性を奪還するための決定的な一手として、Google は公式に Gemini 3.1 Pro をリリースしました。この新しいフラッグシップモデルは、単なる段階的なアップデートではありません。これは、高度な推論に向けたアーキテクチャの根本的な転換を象徴しており、業界に衝撃を与える驚異的なパフォーマンスの飛躍を実現しています。

Google DeepMind によって開発された Gemini 3.1 Pro は、前モデルの登場からわずか数ヶ月でリリースされましたが、世代間の隔たりを感じさせるパフォーマンス指標を誇っています。最大の成果は、抽象的な推論と汎化能力を厳格にテストする ARC-AGI-2 ベンチマークにおける成績です。ここでは Gemini 3 Pro のスコアを 2 倍以上に伸ばしました。広範な重要ベンチマークにおいて OpenAI の GPT-5.2 や Anthropic の Claude Opus 4.6 といった競合他社を凌駕することで、Google は「ディープ・シンク（Deep Think）」推論モデルの時代が真に到来したことを示しています。

推論革命：ARC-AGI-2 の突破

長年、Abstraction and Reasoning Corpus（ARC）は大規模言語モデル（LLM）にとって高い障壁となってきました。膨大なデータセットからの暗記やパターンマッチングが報われることが多い標準的なベンチマークとは異なり、ARC は数ショットの論理的帰納法を用いて、これまでに見たことのない視覚的なパズルを解くことをモデルに要求します。これは、汎用人工知能（AGI）に向けた真の流動性知能を測定するための指標として広く認識されています。

更新された ARC-AGI-2 ベンチマークにおける Gemini 3.1 Pro のパフォーマンスは、歴史的と言っても過言ではありません。このモデルは 77.1% という検証済みスコアを達成しました。比較すると、前世代の Gemini 3 Pro のスコアは 31.1% であり、OpenAI の GPT-5.2 は 52.9% と大きく差をつけられています。

この飛躍は、Google が「ディープ・シンク（Deep Think）」機能をコアモデルのアーキテクチャに直接統合したことによるものです。2025 年に注目を集めた「思考の連鎖（Chain of Thought）」の手法と同様に、Gemini 3.1 Pro は内部的なモノローグプロセスを利用して、最終的な出力を生成する前に複雑な問題を分解します。しかし、従来のラッパーベースのアプローチとは異なり、この推論はモデルのトレーニングに固有のものであり、歴史的に AI を悩ませてきた問題に対して、より創造的で正確な解決策を可能にします。

ベンチマークの支配：新たな標準

ARC-AGI-2 はモデルの推論能力を際立たせていますが、Gemini 3.1 Pro の優位性は、伝統的および現代的なベンチマークスイート全体に及んでいます。Google のテクニカルレポートでは、この新モデルを現在の有力候補である OpenAI の GPT-5.2 や Anthropic の Claude Opus 4.6 と比較しています。

多様なハードサイエンスや人文科学にわたる専門家レベルの知識を測定するために設計されたテスト Humanity’s Last Exam において、Gemini 3.1 Pro は 44.4% のスコアを獲得し、Claude Opus 4.6（40.0%）や GPT-5.2（34.5%）を明確に上回りました。これは、Google のモデルが抽象的なパズルに優れているだけでなく、複雑なドメイン知識に対してより深く正確な検索と統合のメカニズムを備えていることを示唆しています。

大学院レベルの推論を測定する GPQA Diamond では、競争はより激しくなりました。Gemini 3.1 Pro は 94.3% を達成し、GPT-5.2（92.4%）と Claude Opus 4.6（91.3%）を僅差で上回りました。このわずかながらも一貫したリードは、一刻を争う学術的および専門的なシナリオにおけるモデルの信頼性を裏付けています。

以下の表は、主要な業界指標におけるこれら主要モデルの比較パフォーマンスの詳細です。

指標	Gemini 3.1 Pro	GPT-5.2	Claude Opus 4.6
ARC-AGI-2（推論）	77.1%	52.9%	68.8%
Humanity's Last Exam（一般知識）	44.4%	34.5%	40.0%
GPQA Diamond（大学院レベル）	94.3%	92.4%	91.3%
MMLU（多角的言語理解）	92.6%	89.6%	91.1%
SWE-Bench Verified（ソフトウェアエンジニアリング）	80.6%	80.0%	80.8%

コーディングの戦場：微妙な勝利

Gemini 3.1 Pro は一般的な推論と知識で王座を獲得しましたが、ソフトウェアエンジニアリングの覇権をめぐる戦いは依然として激しく争われています。現実世界の GitHub の問題を解決する能力を評価する SWE-Bench Verified ベンチマークにおいて、Gemini 3.1 Pro は 80.6% を記録しました。これは Gemini 3 Pro（76.2%）からの大幅な改善であり、事実上リーダーたちと並んでいますが、80.8% でトップを維持している Claude Opus 4.6 には僅差で届きませんでした。

しかし、SWE-Bench Pro (Public) データセットに関する Google の透明性は、競争の激しさを示しています。Gemini 3.1 Pro のスコアは 54.2% でしたが、56.8% を達成した OpenAI の特化型モデル GPT-5.3-Codex に敗れました。この違いは、市場戦略の分岐を浮き彫りにしています。Google があらゆる分野で優れた汎用的な「思考」モデルの最適化を目指している一方で、競合他社はコーディングやクリエイティブライティング向けに、高度に専門化されたエージェントへとモデルラインを分断し始めています。

それでもなお、Google のエコシステムを使用している平均的な開発者にとって、Android Studio や Vertex AI といったツールへの Gemini 3.1 Pro の統合は、大幅な生産性の向上を約束します。単に構文をオートコンプリートするのではなく、コードベースを通じて「推論」するモデルの能力により、デバッグ時間が大幅に短縮されることが期待されます。

エコシステムの統合とアクセシビリティ

Google は、Gemini 3.1 Pro を直ちにユーザーの手に届けるべく積極的に動いています。本日時点で、このモデルは Gemini アプリ内の「ディープ・シンク（Deep Think）」機能を強化しており、Gemini API を通じて開発者も利用可能です。

無料アクセス： Gemini アプリの標準ユーザーは、基本的な推論タスクのために Gemini 3.1 Pro の量子化バージョンにアクセスできます。
エンタープライズおよびパワーユーザー： Google AI Pro および Ultra プランの加入者は、NotebookLM への統合を含むフルモデルへの無制限のアクセスが可能です。

NotebookLM への導入は特に注目に値します。Humanity’s Last Exam での 44.4% というスコアと NotebookLM のグラウンディング機能を組み合わせることで、Google はこのツールを究極のリサーチアシスタントとして位置づけています。初期のデモでは、数百もの学術論文を首尾一貫した斬新な仮説へと統合する様子が示されています。これは、能力の低い以前のモデルではハルシネーション（Hallucination）を引き起こしていたタスクです。

業界への影響：OpenAI と Anthropic への圧力

Gemini 3.1 Pro のリリースは重要な局面で行われました。2025 年後半を通じて、OpenAI の GPT-5.2 が推論能力の停滞により Anthropic や Google に市場シェアを奪われているという報告が流れました。業界関係者は OpenAI の状況を「コード・レッド（Code Red）」と表現しており、CEO のサム・アルトマン（Sam Altman）は次世代のフロンティアモデルのスケジュールを加速させるよう促していると報じられています。

Gemini 3.1 Pro の登場は、「推論優先（Reasoning-first）」のアプローチを正当化するものです。単一の世代（3 Pro から 3.1 Pro）で推論スコアを 2 倍にできることを証明することで、Google はこれまで AI の進歩を支配してきたスケーリング則に挑戦しました。もはや計算資源とデータの量だけの問題ではなく、モデルがそのデータをどのように処理するかが重要なのです。

そのニュアンスと安全性から根強い人気を誇っていた Anthropic の Claude Opus 4.6 は、数学的により精密な直接の挑戦者に直面することになりました。SWE-Bench Verified での接戦は、Claude が依然として優れたコーディングアシスタントである一方で、Google が純粋な論理で突き進みながらその差を縮めたことを示唆しています。

今後の展望

2026 年が進むにつれ、焦点は「チャットボット」から「推論エージェント」へと移りつつあります。Gemini 3.1 Pro は今年の最初の大規模な攻勢であり、OpenAI や DeepSeek が開発中のあらゆるものに対して高いハードルを設定しました。企業や開発者にとって、モデルの選択はブランドへの忠誠心ではなく、特定のユースケースに対する具体的なベンチマークパフォーマンスへと変わりつつあります。

複雑な論理的抽象化をナビゲートする能力と、Google Workspace への深い統合により、Gemini 3.1 Pro は現在、市場で最も有能な汎用 AI となっています。現在の問いは、競合他社が対抗するかどうかではなく、Google が切り開いた推論のギャップをいかに早く埋められるかということです。