
Французский технологический гигант в сфере ИИ Mistral AI вновь изменил ландшафт открытого программного обеспечения (Open-source), представив Voxtral Transcribe 2 — семейство моделей преобразования речи в текст нового поколения, разработанное для сокращения разрыва между человеческим восприятием и эффективностью машин. Выпущенный 4 февраля 2026 года, этот новый набор моделей представляет прорывные возможности в области задержки и точности, во главе с потоковой архитектурой, способной обрабатывать аудио с задержкой менее 200 миллисекунд.
Этот релиз знаменует собой важную веху в коммодитизации голосового интеллекта, предлагая производительность корпоративного уровня за долю стоимости проприетарных конкурентов, таких как Whisper от OpenAI и ElevenLabs. Выпуская веса своей модели реального времени под разрешительной лицензией Apache 2.0, Mistral фактически демократизирует доступ к высокоточной инфраструктуре передачи голоса с низкой задержкой как для разработчиков, так и для предприятий.
Семейство Voxtral Transcribe 2 спроектировано для решения двух различных, но критически важных потребностей рынка: сверхбыстрого живого взаимодействия и высокоточной пакетной обработки.
Жемчужиной этого релиза является Voxtral Realtime (официально Voxtral-Mini-4B-Realtime-2602). Построенная на новой потоковой архитектуре, эта модель с 4 миллиардами параметров оптимизирована для развертывания на пограничных устройствах (Edge deployment) и живых приложений, где важна каждая миллисекунда. В отличие от традиционных моделей, которые обрабатывают аудио большими фрагментами, Voxtral Realtime использует непрерывный потоковый кодировщик.
Дополнением к модели реального времени служит Voxtral Mini Transcribe V2, предназначенная для асинхронной пакетной обработки. Эта модель ориентирована на извлечение максимальной детализации из аудиофайлов, предлагая функции, которые ранее были платными дополнениями в индустрии.
Инженерная команда Mistral оптимизировала эти модели для 13 различных языков, включая английский, французский, китайский, хинди и арабский. Модели демонстрируют стабильную работу в сценариях переключения кодов (Code-switching), когда говорящие плавно переходят с одного языка на другой — что было серьезной проблемой для ранних систем автоматического распознавания речи (ASR).
Ключевое техническое сравнение
| Метрика | Voxtral Realtime | Voxtral Mini Transcribe V2 |
|---|---|---|
| Основной сценарий использования | Разговорный ИИ в реальном времени, голосовые боты | Субтитрование видео, аналитика, архивы |
| Архитектура | Потоковый казуальный кодировщик (Streaming Causal Encoder) | Двунаправленный кодировщик (Bidirectional Encoder) |
| Задержка | Настраиваемая (200 мс - 2,4 с) | Пакетная обработка (Асинхронная) |
| Лицензия | Apache 2.0 (Открытые веса) | Коммерческая / API |
| Входной контекст | Непрерывный поток | До 3 часов на запрос |
| Количество параметров | 4 миллиарда | Оптимизировано для пакетов |
Экономика Voxtral Transcribe 2 столь же революционна, как и ее технология. Mistral позиционирует эти модели так, чтобы агрессивно вытеснять существующие проприетарные API. Для разработчиков, создающих высоконагруженные приложения, экономия средств весьма существенна.
Ландшафт конкурентного ценообразования
| Провайдер | Модель | Стоимость за минуту | Доступность открытого кода |
|---|---|---|---|
| Mistral AI | Voxtral Transcribe 2 (Пакетная) | $0,003 | Да (вариант Realtime) |
| Mistral AI | Voxtral Realtime (Поток) | $0,006 | Да (Apache 2.0) |
| OpenAI | Whisper Large-v3 | $0,006 | Да |
| ElevenLabs | Scribe v2 | ~$0,015 | Нет |
| Gemini 2.5 Flash Audio | Зависит от токенов | Нет |
Примечание: Цены оценочные, основаны на стандартных публичных тарифах по состоянию на февраль 2026 года.
Выпуск Voxtral Transcribe 2 сигнализирует о сдвиге в подходе разработчиков к голосовым интерфейсам. Ранее достижение задержки менее 500 мс требовало сложных, специально разработанных конвейеров или дорогих проприетарных решений. Предоставляя модель с открытыми весами, которая эффективно работает на локальных устройствах, Mistral открывает путь для новой волны «локально-ориентированных» (local-first) голосовых приложений.
Стратегические преимущества:
По мере того как рынок голосового ИИ накаляется, шаг Mistral оказывает огромное давление на конкурентов, заставляя их снижать затраты и открывать свои экосистемы. Для читателей Creati.ai и широкого сообщества разработчиков Voxtral Transcribe 2 представляет собой не просто новый инструмент, а новый стандарт доступного и высокоскоростного машинного слуха.