Mistral запускает Voxtral Transcribe 2: сверхбыстрая открытая модель перевода с задержкой 200 мс

Mistral AI переопределяет распознавание речи в реальном времени с Voxtral Transcribe 2

Французский технологический гигант в сфере ИИ Mistral AI вновь изменил ландшафт открытого программного обеспечения (Open-source), представив Voxtral Transcribe 2 — семейство моделей преобразования речи в текст нового поколения, разработанное для сокращения разрыва между человеческим восприятием и эффективностью машин. Выпущенный 4 февраля 2026 года, этот новый набор моделей представляет прорывные возможности в области задержки и точности, во главе с потоковой архитектурой, способной обрабатывать аудио с задержкой менее 200 миллисекунд.

Этот релиз знаменует собой важную веху в коммодитизации голосового интеллекта, предлагая производительность корпоративного уровня за долю стоимости проприетарных конкурентов, таких как Whisper от OpenAI и ElevenLabs. Выпуская веса своей модели реального времени под разрешительной лицензией Apache 2.0, Mistral фактически демократизирует доступ к высокоточной инфраструктуре передачи голоса с низкой задержкой как для разработчиков, так и для предприятий.

Двухмодельная стратегия для любого сценария использования

Семейство Voxtral Transcribe 2 спроектировано для решения двух различных, но критически важных потребностей рынка: сверхбыстрого живого взаимодействия и высокоточной пакетной обработки.

Voxtral Realtime: Демон скорости

Жемчужиной этого релиза является Voxtral Realtime (официально Voxtral-Mini-4B-Realtime-2602). Построенная на новой потоковой архитектуре, эта модель с 4 миллиардами параметров оптимизирована для развертывания на пограничных устройствах (Edge deployment) и живых приложений, где важна каждая миллисекунда. В отличие от традиционных моделей, которые обрабатывают аудио большими фрагментами, Voxtral Realtime использует непрерывный потоковый кодировщик.

Сверхнизкая задержка (Ultra-Low Latency): Настраивается до значений ниже 200 мс, что позволяет голосовым агентам отвечать с почти человеческим темпом разговора.
Готовность к Edge-устройствам: Благодаря компактному размеру 4B, модель может работать локально на потребительском оборудовании, обеспечивая конфиденциальность для чувствительных секторов, таких как здравоохранение и финансы.
Производительность: При задержке в 480 мс она сохраняет частоту ошибок в словах (Word Error Rate, WER) в пределах 1-2% от офлайн-моделей, эффективно решая проблему выбора между скоростью и точностью.

Voxtral Mini Transcribe V2: Рабочая лошадка для точности

Дополнением к модели реального времени служит Voxtral Mini Transcribe V2, предназначенная для асинхронной пакетной обработки. Эта модель ориентирована на извлечение максимальной детализации из аудиофайлов, предлагая функции, которые ранее были платными дополнениями в индустрии.

Продвинутая диаризация (Advanced Diarization): Точно различает нескольких говорящих, назначая точное время начала и окончания реплик.
Контекстное смещение (Context Biasing): Позволяет пользователям вводить до 100 терминов, специфичных для конкретной области (например, медицинский жаргон или названия продуктов), чтобы повысить точность транскрипции.
Экономическая эффективность: При агрессивной цене $0,003 за минуту, она стоит дешевле основных конкурентов, демонстрируя при этом превосходные результаты в тестах на датасете FLEURS.

Технические характеристики и производительность

Инженерная команда Mistral оптимизировала эти модели для 13 различных языков, включая английский, французский, китайский, хинди и арабский. Модели демонстрируют стабильную работу в сценариях переключения кодов (Code-switching), когда говорящие плавно переходят с одного языка на другой — что было серьезной проблемой для ранних систем автоматического распознавания речи (ASR).

Ключевое техническое сравнение

Метрика	Voxtral Realtime	Voxtral Mini Transcribe V2
Основной сценарий использования	Разговорный ИИ в реальном времени, голосовые боты	Субтитрование видео, аналитика, архивы
Архитектура	Потоковый казуальный кодировщик (Streaming Causal Encoder)	Двунаправленный кодировщик (Bidirectional Encoder)
Задержка	Настраиваемая (200 мс - 2,4 с)	Пакетная обработка (Асинхронная)
Лицензия	Apache 2.0 (Открытые веса)	Коммерческая / API
Входной контекст	Непрерывный поток	До 3 часов на запрос
Количество параметров	4 миллиарда	Оптимизировано для пакетов

Разрушение барьера цена-производительность

Экономика Voxtral Transcribe 2 столь же революционна, как и ее технология. Mistral позиционирует эти модели так, чтобы агрессивно вытеснять существующие проприетарные API. Для разработчиков, создающих высоконагруженные приложения, экономия средств весьма существенна.

Ландшафт конкурентного ценообразования

Провайдер	Модель	Стоимость за минуту	Доступность открытого кода
Mistral AI	Voxtral Transcribe 2 (Пакетная)	$0,003	Да (вариант Realtime)
Mistral AI	Voxtral Realtime (Поток)	$0,006	Да (Apache 2.0)
OpenAI	Whisper Large-v3	$0,006	Да
ElevenLabs	Scribe v2	~$0,015	Нет
Google	Gemini 2.5 Flash Audio	Зависит от токенов	Нет

Примечание: Цены оценочные, основаны на стандартных публичных тарифах по состоянию на февраль 2026 года.

Значение для экосистемы ИИ

Выпуск Voxtral Transcribe 2 сигнализирует о сдвиге в подходе разработчиков к голосовым интерфейсам. Ранее достижение задержки менее 500 мс требовало сложных, специально разработанных конвейеров или дорогих проприетарных решений. Предоставляя модель с открытыми весами, которая эффективно работает на локальных устройствах, Mistral открывает путь для новой волны «локально-ориентированных» (local-first) голосовых приложений.

Стратегические преимущества:

ИИ с приоритетом конфиденциальности (Privacy-First AI): Больницы и юридические фирмы теперь могут развертывать современную транскрипцию на собственных мощностях без отправки конфиденциальных аудиоданных в облако.
Глобальный охват: Благодаря сильной поддержке 13 основных языков, модель готова к глобальному развертыванию, охватывая рынки, которые часто недостаточно обслуживаются моделями, ориентированными на США.
Гибкость для разработчиков: Наличие весов на Hugging Face позволяет исследователям тонко настраивать модель для нишевых диалектов или специфических акустических сред.

По мере того как рынок голосового ИИ накаляется, шаг Mistral оказывает огромное давление на конкурентов, заставляя их снижать затраты и открывать свои экосистемы. Для читателей Creati.ai и широкого сообщества разработчиков Voxtral Transcribe 2 представляет собой не просто новый инструмент, а новый стандарт доступного и высокоскоростного машинного слуха.