
法國 AI 巨頭 Mistral AI 再次顛覆了開源領域,推出了 Voxtral Transcribe 2。這是一系列下一代語音轉文字(Speech-to-text)模型,旨在彌合人類水平的感知與機器效率之間的差距。該系列模型於 2026 年 2 月 4 日發佈,在延遲和準確性方面引入了突破性功能,其核心是能夠以低於 200 毫秒的延遲處理音訊的串流架構。
此次發佈標誌著語音智能商品化的重要里程碑,以 OpenAI 的 Whisper 和 ElevenLabs 等專有競爭對手的一小部分成本提供企業級性能。透過在寬鬆的 Apache 2.0 許可下發佈其實時模型的權重,Mistral 有效地為開發者和企業實現了高保真、低延遲語音基礎設施的普及。
Voxtral Transcribe 2 系列的架構旨在解決市場中兩個不同但至關重要的需求:超快速的實時交互和高精度的批處理。
本次發佈的璀璨明珠是 Voxtral Realtime(官方名稱為 Voxtral-Mini-4B-Realtime-2602)。該 40 億參數模型基於新型串流架構構建,針對邊緣部署和每一毫秒都至關重要的實時應用進行了優化。與以大塊處理音訊的傳統模型不同,Voxtral Realtime 使用連續串流編碼器。
與實時模型互補的是 Voxtral Mini Transcribe V2,專為異步批處理而設計。該模型專注於從音訊文件中提取最大細節,提供以前在行業中作為高級加成功能的特性。
Mistral 的工程團隊針對 13 種不同的語言優化了這些模型,包括英語、法語、中文、印地語和阿拉伯語。這些模型在「語碼轉換(Code-switching)」場景中表現出強大的性能,即說話者在語言之間無縫切換——這對早期的自動語音識別(ASR)系統來說是一個眾所周知的挑戰。
關鍵技術對比
| 指標 | Voxtral Realtime | Voxtral Mini Transcribe V2 |
|---|---|---|
| 主要使用場景 | 實時對話 AI、語音機器人 | 影片字幕、分析、存檔 |
| 架構 | 串流因果編碼器(Streaming Causal Encoder) | 雙向編碼器(Bidirectional Encoder) |
| 延遲 | 可配置(200ms - 2.4s) | 批處理(異步) |
| 授權許可 | Apache 2.0(開放權重) | 商業 / API |
| 輸入上下文 | 連續串流 | 每次請求長達 3 小時 |
| 參數數量 | 40 億 | 針對批處理進行優化 |
Voxtral Transcribe 2 的經濟效益與其技術一樣具有顛覆性。Mistral 將這些模型的價格定位在遠低於現有的專有 API。對於構建高流量應用的開發者來說,節省的成本非常可觀。
競爭性定價景觀
| 提供商 | 模型 | 每分鐘成本 | 開源可用性 |
|---|---|---|---|
| Mistral AI | Voxtral Transcribe 2 (批處理) | $0.003 | 是(實時變體) |
| Mistral AI | Voxtral Realtime (串流) | $0.006 | 是(Apache 2.0) |
| OpenAI | Whisper Large-v3 | $0.006 | 是 |
| ElevenLabs | Scribe v2 | 約 $0.015 | 否 |
| Gemini 2.5 Flash Audio | 隨 Token 變化 | 否 |
註:價格是根據截至 2026 年 2 月的標準公共層級估算的。
Voxtral Transcribe 2 的發佈標誌著開發者處理語音介面方式的轉變。以前,實現低於 500 毫秒的延遲需要複雜的、自定義工程的流水線或昂貴的專有解決方案。透過提供一個在邊緣高效運行的開放權重模型,Mistral 正在開啟新一波「本地優先」語音應用的浪潮。
策略優勢:
隨著 AI 語音市場升溫,Mistral 的舉動給競爭對手帶來了巨大的壓力,要求其降低成本並開放生態系統。對於 Creati.ai 的讀者和更廣泛的開發者社區來說,Voxtral Transcribe 2 不僅代表了一種新工具,更代表了可訪問、高速機器聽覺的新標準。