Mistral 推出 Voxtral Transcribe 2：具 200ms 延遲的超快開源翻譯模型

Mistral AI 透過 Voxtral Transcribe 2 重新定義實時語音識別

法國 AI 巨頭 Mistral AI 再次顛覆了開源領域，推出了 Voxtral Transcribe 2。這是一系列下一代語音轉文字（Speech-to-text）模型，旨在彌合人類水平的感知與機器效率之間的差距。該系列模型於 2026 年 2 月 4 日發佈，在延遲和準確性方面引入了突破性功能，其核心是能夠以低於 200 毫秒的延遲處理音訊的串流架構。

此次發佈標誌著語音智能商品化的重要里程碑，以 OpenAI 的 Whisper 和 ElevenLabs 等專有競爭對手的一小部分成本提供企業級性能。透過在寬鬆的 Apache 2.0 許可下發佈其實時模型的權重，Mistral 有效地為開發者和企業實現了高保真、低延遲語音基礎設施的普及。

適用於每種使用場景的雙模型策略

Voxtral Transcribe 2 系列的架構旨在解決市場中兩個不同但至關重要的需求：超快速的實時交互和高精度的批處理。

Voxtral Realtime：速度之魔

本次發佈的璀璨明珠是 Voxtral Realtime（官方名稱為 Voxtral-Mini-4B-Realtime-2602）。該 40 億參數模型基於新型串流架構構建，針對邊緣部署和每一毫秒都至關重要的實時應用進行了優化。與以大塊處理音訊的傳統模型不同，Voxtral Realtime 使用連續串流編碼器。

超低延遲： 可配置低至 200 毫秒以下（sub-200ms），使語音代理能夠以接近人類的對話節奏進行響應。
邊緣就緒： 憑藉緊湊的 4B 佔用空間，它可以在消費級硬體上本地運行，確保醫療保健和金融等敏感部門的隱私。
性能： 在 480 毫秒的延遲下，它將單詞錯誤率（Word Error Rate, WER）維持在離線模型的 1-2% 以內，有效解決了速度與準確性之間的權衡問題。

Voxtral Mini Transcribe V2：精準主力

與實時模型互補的是 Voxtral Mini Transcribe V2，專為異步批處理而設計。該模型專注於從音訊文件中提取最大細節，提供以前在行業中作為高級加成功能的特性。

高級說話人日誌（Advanced Diarization）： 準確區分多個說話者，並分配精確的開始和結束時間。
上下文偏置（Context Biasing）： 允許用戶注入多達 100 個特定領域的術語（例如醫療術語或產品名稱），以提高轉錄準確性。
成本效益： 定價極具競爭力，為 每分鐘 0.003 美元，在 FLEURS 數據集上提供卓越基準測試的同時，價格低於主要競爭對手。

技術規格與性能

Mistral 的工程團隊針對 13 種不同的語言優化了這些模型，包括英語、法語、中文、印地語和阿拉伯語。這些模型在「語碼轉換（Code-switching）」場景中表現出強大的性能，即說話者在語言之間無縫切換——這對早期的自動語音識別（ASR）系統來說是一個眾所周知的挑戰。

關鍵技術對比

指標	Voxtral Realtime	Voxtral Mini Transcribe V2
主要使用場景	實時對話 AI、語音機器人	影片字幕、分析、存檔
架構	串流因果編碼器（Streaming Causal Encoder）	雙向編碼器（Bidirectional Encoder）
延遲	可配置（200ms - 2.4s）	批處理（異步）
授權許可	Apache 2.0（開放權重）	商業 / API
輸入上下文	連續串流	每次請求長達 3 小時
參數數量	40 億	針對批處理進行優化

打破性價比壁壘

Voxtral Transcribe 2 的經濟效益與其技術一樣具有顛覆性。Mistral 將這些模型的價格定位在遠低於現有的專有 API。對於構建高流量應用的開發者來說，節省的成本非常可觀。

競爭性定價景觀

提供商	模型	每分鐘成本	開源可用性
Mistral AI	Voxtral Transcribe 2 (批處理)	$0.003	是（實時變體）
Mistral AI	Voxtral Realtime (串流)	$0.006	是（Apache 2.0）
OpenAI	Whisper Large-v3	$0.006	是
ElevenLabs	Scribe v2	約 $0.015	否
Google	Gemini 2.5 Flash Audio	隨 Token 變化	否

註：價格是根據截至 2026 年 2 月的標準公共層級估算的。

對 AI 生態系統的影響

Voxtral Transcribe 2 的發佈標誌著開發者處理語音介面方式的轉變。以前，實現低於 500 毫秒的延遲需要複雜的、自定義工程的流水線或昂貴的專有解決方案。透過提供一個在邊緣高效運行的開放權重模型，Mistral 正在開啟新一波「本地優先」語音應用的浪潮。

策略優勢：

隱私優先 AI： 醫院和律師事務所現在可以在本地部署最先進的轉錄服務，而無需將敏感的音訊數據發送到雲端。
全球覆蓋： 憑藉對 13 種主要語言的強大支持，該模型已準備好進行全球部署，解決了通常被以美國為中心的模型忽視的市場。
開發者靈活性： Hugging Face 上權重的可用性允許研究人員針對特定方言或高度特定的聲學環境對模型進行微調。

隨著 AI 語音市場升溫，Mistral 的舉動給競爭對手帶來了巨大的壓力，要求其降低成本並開放生態系統。對於 Creati.ai 的讀者和更廣泛的開發者社區來說，Voxtral Transcribe 2 不僅代表了一種新工具，更代表了可訪問、高速機器聽覺的新標準。