Технологии2026-05-087 мин

Whisper или GPT Voice: какая модель точнее для русского

OpenAI предлагает две модели распознавания: open-source Whisper и закрытый GPT-4o с голосовым модулем. Что лучше для русского?

Контекст: две модели OpenAI для распознавания речи

OpenAI разрабатывает два разных подхода к ASR (Automatic Speech Recognition):

1.Whisper — специализированная open-source модель, релиз 2022, обновления до v3 в 2024-2025
2.GPT-4o Voice — голосовой модуль внутри multimodal GPT-4o, релиз 2024

Это разные архитектуры с разными целями. Сравним их применимость к русскому языку.

Whisper: open-source ASR

Whisper — encoder-decoder Transformer, обученный на 680,000 часах аудио из интернета (включая 7-10% русского). Размеры: tiny (75 МБ), base (140 МБ), small (460 МБ), medium (1.5 ГБ), large (3 ГБ). Запускается локально через Python (faster-whisper) или через готовые приложения (MacWhisper, WhisperX).

Точность на русском (large v3):

Чистая запись: 4-5% WER
Со смартфона: 6-8% WER
Шум: 12-15% WER

Скорость:

CPU (Mac M2): 0.3-0.5x real-time (час обрабатывается 2-3 часа)
GPU (RTX 3060): 5-10x real-time (час за 6-12 минут)
GPU (A100): 30-50x real-time (час за 1-2 минуты)

Цена: 0 ₽ за модель, но нужен компьютер с GPU или мощным CPU.

GPT-4o Voice: универсальная multimodal

GPT-4o (Omni) — единая модель для текста, изображений, аудио и видео. Голосовой модуль работает в двух режимах:

1.Realtime API — стриминг речи в текст с задержкой ~300 мс
2.Audio input — асинхронная транскрипция файла

Точность на русском (GPT-4o-audio-preview):

Чистая запись: 5-7% WER
Со смартфона: 8-10% WER
Шум: 14-18% WER

Скорость: через API — 2-3 минуты на час записи. Realtime — мгновенно (стриминг).

Цена: $6/час аудио ввода + $24/час вывода (если просите модель ещё и ответить голосом). Для чистой транскрипции — ~$6/час = 530 ₽/час = 8,8 ₽/мин.

Сравнение

Параметр	Whisper Large v3	GPT-4o Voice
Точность на русском	95-96%	93-95%
Скорость на GPU	5-50x real-time	~30x real-time
Скорость на CPU	0.3-0.5x	N/A (только API)
Стоимость	0 ₽ + железо	8,8 ₽/мин
Локальный запуск	Да	Нет (только API)
Stream/realtime	Нет (только batch)	Да
Multimodal (GPT задачи)	Нет	Да
Лицензия	MIT (свободно)	Закрытая, OpenAI ToS

Когда выбирать Whisper

Нужна локальная обработка без интернета (privacy)
Есть мощный компьютер (Mac M-series, GPU NVIDIA)
Большие объёмы — экономия на API
Открытый исходный код для модификаций
Не нужна мультимодальность

Когда выбирать GPT-4o Voice

Realtime голосовые помощники
Multimodal pipeline (аудио → текст → AI-обработка → голос)
Нет своего железа
Готовы платить за удобство API

А какие альтернативы есть для русского?

Модель	WER на рус	Цена/мин	Доступ
Voxtral V2 (через Dicto)	2-3%	0,83 ₽	API + UI
Whisper Large v3 (local)	4-5%	0 ₽ (нужна GPU)	Open-source
GPT-4o Voice	5-7%	8,8 ₽	OpenAI API
Yandex SpeechKit	4-5%	1,2 ₽	Yandex Cloud
Сбер SaluteSpeech	4-6%	0,9 ₽	SberCloud

Voxtral V2 даёт лучший результат для русского — на 2-3 пункта точнее Whisper. Объяснение: Voxtral специально дообучен на русском (а Whisper — на 99 языках равно).

Вывод

Для русского: Voxtral V2 > Whisper Large v3 > GPT-4o Voice > Google Speech-to-Text. Если важна локальная обработка — Whisper (бесплатно, но нужна GPU). Если важна высшая точность на русском — Dicto на Voxtral. GPT-4o Voice имеет смысл только для realtime голосовых ассистентов или multimodal-пайплайнов.

Попробуйте Dicto бесплатно

Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.

Начать бесплатно

Читать дальше

Обзоры