Whisper или GPT Voice: какая модель точнее для русского
OpenAI предлагает две модели распознавания: open-source Whisper и закрытый GPT-4o с голосовым модулем. Что лучше для русского?
Контекст: две модели OpenAI для распознавания речи
OpenAI разрабатывает два разных подхода к ASR (Automatic Speech Recognition):
- 1.Whisper — специализированная open-source модель, релиз 2022, обновления до v3 в 2024-2025
- 2.GPT-4o Voice — голосовой модуль внутри multimodal GPT-4o, релиз 2024
Это разные архитектуры с разными целями. Сравним их применимость к русскому языку.
Whisper: open-source ASR
Whisper — encoder-decoder Transformer, обученный на 680,000 часах аудио из интернета (включая 7-10% русского). Размеры: tiny (75 МБ), base (140 МБ), small (460 МБ), medium (1.5 ГБ), large (3 ГБ). Запускается локально через Python (faster-whisper) или через готовые приложения (MacWhisper, WhisperX).
Точность на русском (large v3):
- Чистая запись: 4-5% WER
- Со смартфона: 6-8% WER
- Шум: 12-15% WER
Скорость:
- CPU (Mac M2): 0.3-0.5x real-time (час обрабатывается 2-3 часа)
- GPU (RTX 3060): 5-10x real-time (час за 6-12 минут)
- GPU (A100): 30-50x real-time (час за 1-2 минуты)
Цена: 0 ₽ за модель, но нужен компьютер с GPU или мощным CPU.
GPT-4o Voice: универсальная multimodal
GPT-4o (Omni) — единая модель для текста, изображений, аудио и видео. Голосовой модуль работает в двух режимах:
- 1.Realtime API — стриминг речи в текст с задержкой ~300 мс
- 2.Audio input — асинхронная транскрипция файла
Точность на русском (GPT-4o-audio-preview):
- Чистая запись: 5-7% WER
- Со смартфона: 8-10% WER
- Шум: 14-18% WER
Скорость: через API — 2-3 минуты на час записи. Realtime — мгновенно (стриминг).
Цена: $6/час аудио ввода + $24/час вывода (если просите модель ещё и ответить голосом). Для чистой транскрипции — ~$6/час = 530 ₽/час = 8,8 ₽/мин.
Сравнение
| Параметр | Whisper Large v3 | GPT-4o Voice |
|---|---|---|
| Точность на русском | 95-96% | 93-95% |
| Скорость на GPU | 5-50x real-time | ~30x real-time |
| Скорость на CPU | 0.3-0.5x | N/A (только API) |
| Стоимость | 0 ₽ + железо | 8,8 ₽/мин |
| Локальный запуск | Да | Нет (только API) |
| Stream/realtime | Нет (только batch) | Да |
| Multimodal (GPT задачи) | Нет | Да |
| Лицензия | MIT (свободно) | Закрытая, OpenAI ToS |
Когда выбирать Whisper
- Нужна локальная обработка без интернета (privacy)
- Есть мощный компьютер (Mac M-series, GPU NVIDIA)
- Большие объёмы — экономия на API
- Открытый исходный код для модификаций
- Не нужна мультимодальность
Когда выбирать GPT-4o Voice
- Realtime голосовые помощники
- Multimodal pipeline (аудио → текст → AI-обработка → голос)
- Нет своего железа
- Готовы платить за удобство API
А какие альтернативы есть для русского?
| Модель | WER на рус | Цена/мин | Доступ |
|---|---|---|---|
| Voxtral V2 (через Dicto) | 2-3% | 0,83 ₽ | API + UI |
| Whisper Large v3 (local) | 4-5% | 0 ₽ (нужна GPU) | Open-source |
| GPT-4o Voice | 5-7% | 8,8 ₽ | OpenAI API |
| Yandex SpeechKit | 4-5% | 1,2 ₽ | Yandex Cloud |
| Сбер SaluteSpeech | 4-6% | 0,9 ₽ | SberCloud |
Voxtral V2 даёт лучший результат для русского — на 2-3 пункта точнее Whisper. Объяснение: Voxtral специально дообучен на русском (а Whisper — на 99 языках равно).
Вывод
Для русского: Voxtral V2 > Whisper Large v3 > GPT-4o Voice > Google Speech-to-Text. Если важна локальная обработка — Whisper (бесплатно, но нужна GPU). Если важна высшая точность на русском — Dicto на Voxtral. GPT-4o Voice имеет смысл только для realtime голосовых ассистентов или multimodal-пайплайнов.
Попробуйте Dicto бесплатно
Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.
Начать бесплатно