Mistral、Voxtral Transcribe 2を発表：200msのレイテンシを実現する超高速オープンソース翻訳モデル

Mistral AIがVoxtral Transcribe 2でリアルタイム音声認識を再定義

フランスのAI大手Mistral AIは、人間レベルの知覚とマシンの効率性のギャップを埋めるために設計された次世代音声文字起こし（Speech-to-text）モデルファミリーであるVoxtral Transcribe 2のリリースにより、オープンソース界に再び変革をもたらしました。2026年2月4日に発表されたこの新しいモデルスイートは、200ミリ秒未満の遅延でオーディオを処理可能なストリーミングアーキテクチャを筆頭に、レイテンシと精度における画期的な機能を導入しています。

このリリースは、OpenAIのWhisperやElevenLabsのような独自の競合他社の数分の一のコストでエンタープライズグレードのパフォーマンスを提供し、音声インテリジェンスのコモディティ化における重要なマイルストーンとなります。Mistralは、リアルタイムモデルの重みを寛容なApache 2.0ライセンスの下で公開することで、開発者や企業に対して、高忠実度で低レイテンシな音声インフラへのアクセスを事実上民主化しています。

あらゆるユースケースに対応するデュアルモデル戦略

Voxtral Transcribe 2ファミリーは、市場における2つの異なる、しかし不可欠なニーズ（超高速なライブインタラクションと高精度なバッチ処理）に対応するように構築されています。

Voxtral Realtime：スピードの王者

このリリースの目玉は**Voxtral Realtime**（公式名称 Voxtral-Mini-4B-Realtime-2602）です。斬新なストリーミングアーキテクチャに基づいて構築されたこの40億パラメータ（4B）モデルは、ミリ秒単位の速度が求められるエッジデプロイメントやライブアプリケーション向けに最適化されています。大きなチャンクでオーディオを処理する従来のモデルとは異なり、Voxtral Realtimeは連続ストリーミングエンコーダーを利用しています。

超低レイテンシ： 最短200ms未満に設定可能で、音声エージェントが人間に近い会話のリズムで応答することを可能にします。
エッジ対応： コンパクトな4Bのフットプリントにより、コンシューマー向けハードウェア上でローカルに実行でき、ヘルスケアや金融などの機密性の高い分野でのプライバシーを確保します。
パフォーマンス： 480msの遅延において、オフラインモデルと比較して単語誤り率（WER：Word Error Rate）の差を1〜2%以内に維持し、速度と精度のトレードオフを効果的に解決しています。

Voxtral Mini Transcribe V2：精度の主力モデル

リアルタイムモデルを補完するのが、非同期バッチ処理用に設計されたVoxtral Mini Transcribe V2です。このモデルは、オーディオファイルから最大限の詳細を抽出することに焦点を当てており、以前は業界でプレミアムなアドオン機能であった機能を提供します。

高度なダイアライゼーション（Diarization）： 複数の話者を正確に区別し、正確な開始時間と終了時間を割り当てます。
コンテキストバイアス（Context Biasing）： ユーザーが最大100個のドメイン固有の用語（医療用語や製品名など）を注入して、文字起こしの精度を高めることができます。
コスト効率： 1分あたり0.003ドルという積極的な価格設定により、主要な競合他社を下回りつつ、FLEURSデータセットで優れたベンチマークを達成しています。

技術仕様とパフォーマンス

Mistralのエンジニアリングチームは、英語、フランス語、中国語、ヒンディー語、アラビア語を含む13の主要言語向けにこれらのモデルを最適化しました。これらのモデルは、話者が言語をシームレスに切り替える「コードスイッチング（Code-switching）」シナリオにおいても堅牢なパフォーマンスを発揮します。これは、以前の自動音声認識（ASR：Automated Speech Recognition）システムにとって大きな課題でした。

主要な技術比較

指標	Voxtral Realtime	Voxtral Mini Transcribe V2
主なユースケース	ライブ対話型AI、音声ボット	動画字幕、分析、アーカイブ
アーキテクチャ	ストリーミング因果エンコーダー	双方向エンコーダー
レイテンシ	設定可能（200ms - 2.4s）	バッチ処理（非同期）
ライセンス	Apache 2.0（オープンウェイト）	商用 / API
入力コンテキスト	連続ストリーム	1リクエストあたり最大3時間
パラメータ数	40億（4 Billion）	バッチ向けに最適化

価格性能比の壁を打ち破る

Voxtral Transcribe 2の経済性は、その技術と同様に破壊的です。Mistralは、既存の独自APIを積極的に下回る価格でこれらのモデルを位置付けています。大量のアプリケーションを構築する開発者にとって、コスト削減効果は絶大です。

競合価格の概況

プロバイダー	モデル	分あたりのコスト	オープンソースでの利用
Mistral AI	Voxtral Transcribe 2 (Batch)	$0.003	はい（Realtimeバリアント）
Mistral AI	Voxtral Realtime (Stream)	$0.006	はい（Apache 2.0）
OpenAI	Whisper Large-v3	$0.006	はい
ElevenLabs	Scribe v2	約$0.015	いいえ
Google	Gemini 2.5 Flash Audio	トークンにより異なる	いいえ

注：価格は2026年2月時点の標準的なパブリックティアに基づいた推定値です。

AIエコシステムへの影響

Voxtral Transcribe 2のリリースは、開発者が音声インターフェースにアプローチする方法の変化を示唆しています。以前は、500ms未満のレイテンシを実現するには、複雑でカスタム設計されたパイプラインや高価な独自ソリューションが必要でした。エッジで効率的に動作するオープンウェイトモデルを提供することで、Mistralは「ローカルファースト」の音声アプリケーションの新しい波を可能にしています。

戦略的利点：

プライバシー重視のAI： 病院や法律事務所は、機密性の高い音声データをクラウドに送信することなく、最先端の文字起こしをオンプレミスで導入できるようになります。
グローバルな展開： 13の主要言語を強力にサポートしているため、このモデルはグローバルな展開に対応しており、米国中心のモデルでは十分にサービスが提供されていないことが多い市場にも対応します。
開発者の柔軟性： Hugging Faceで重みが利用可能であるため、研究者はニッチな方言や特定の音響環境に合わせてモデルを微調整することができます。

AI音声市場が加熱する中、Mistralのこの動きは、コストを下げ、エコシステムを開放するよう競合他社に多大な圧力をかけています。Creati.aiの読者や広範な開発者コミュニティにとって、Voxtral Transcribe 2は単なる新しいツールではなく、アクセシブルで高速なマシンの「聴覚」における新しい標準を象徴しています。