Google Speech-to-Text для русского: обзор и альтернативы
Google Speech-to-Text — один из лидеров мирового рынка распознавания речи. Разбираем, как он работает с русским и стоит ли его использовать в 2026 году.
Что такое Google Speech-to-Text
Google Speech-to-Text — облачный API распознавания речи от Google Cloud. Запущен в 2017, в 2026 году поддерживает 125+ языков, включая русский. Это не готовый сервис «загрузил-получил», а API для разработчиков — нужно писать код или использовать сторонние обёртки.
Точность на русском языке
По данным Google: WER на русском составляет 4-6% на чистом аудио. На практике (наши тесты на 50 часах разнородных записей):
| Тип записи | WER Google | WER Voxtral (Dicto) |
|---|---|---|
| Студия | 5,1% | 2,3% |
| Смартфон | 6,8% | 4,1% |
| Телефон 8 kHz | 9,4% | 6,2% |
| Шум на улице | 14,7% | 11,3% |
Google уступает специализированным моделям на русском, потому что модель тренирована больше на английском (~50% данных). Для интернациональных проектов с поддержкой 125 языков — Google логичный выбор. Для чистого русского — есть варианты лучше.
Цена
Google Speech-to-Text работает по модели pay-per-use:
- Стандартное распознавание: $0.016 за 15 секунд = $0.064 за минуту = ~5,6 ₽/мин
- Premium-модель (выше точность): $0.024 за 15 секунд = ~8,4 ₽/мин
- С diarization +$0.012 за 15 секунд
Для часа аудио: $3.84-5.76 (~340-510 ₽). Это в 5-7 раз дороже Dicto и в 5 раз дороже Яндекса.
Доступность из РФ в 2026
С 2022 года Google Cloud прекратил приём новых клиентов из России. Существующие аккаунты работают, но оплата возможна только зарубежной картой. Технически API доступен — нужен VPN для управления через консоль и зарубежная карта для оплаты. Это превращает простой сервис в сложный proxy-проект.
Дополнительные сложности:
- Юр.лица в РФ не могут заключить договор с Google Cloud напрямую
- Закрывающие документы — невозможны (нет российской юрисдикции у договора)
- 152-ФЗ — формально не соблюдается (серверы в США, ЕС)
- DPA по российскому праву — нет
Как использовать в 2026
Три варианта:
- 1.Реселлеры (Cloud4Y, ITGLOBAL.COM): покупают пакет у Google и перепродают. Цена выше на 30-50%.
- 2.Через зарубежное юр.лицо: если у вашей компании есть представительство в ЕС/Казахстане/Армении — оформите доступ через него.
- 3.Не использовать в РФ: для российских проектов выбрать Yandex SpeechKit, Сбер SaluteSpeech или Dicto. Юридически чище и в разы дешевле.
Альтернативы Google для русского
| Сервис | WER на рус | Цена/мин | Доступен в РФ |
|---|---|---|---|
| Dicto (Voxtral V2) | 2-3% | 0,83 ₽ | Да |
| Yandex SpeechKit | 4-5% | 1,2 ₽ | Да |
| Сбер SaluteSpeech | 4-6% | 0,9 ₽ | Да |
| Whisper Large v3 (local) | 4-5% | 0 ₽ (нужна GPU) | Да |
| Google Speech-to-Text | 5-6% | 5,6 ₽ | Косвенно |
Когда Google Speech-to-Text всё-таки имеет смысл
- Интернациональный проект с 50+ языками
- Уже на Google Cloud (BigQuery, Firebase) — интеграция проще
- Нужны узкоспециализированные модели (видеоконтент, медицина) — у Google есть подмодели
- Real-time транскрипция (streaming API) — Google один из лучших
Когда выбирать Dicto вместо Google
- Российский проект с фокусом на русский язык
- Нужна максимальная точность на русском
- Бизнес-сценарии с AI-обработкой (саммари, тезисы)
- Регуляторные требования (152-ФЗ, серверы в РФ)
- Бюджет ограничен — Dicto в 5-7 раз дешевле
Вывод
Google Speech-to-Text в 2026 году для русских проектов — overkill: дороже, юридически сложнее, по точности уступает специализированным русским моделям. Для международных проектов на 50+ языках с реалтайм-стримингом — отличный выбор. Для типичных задач транскрибации на русском — Dicto, Yandex или Сбер выгоднее.
Попробуйте Dicto бесплатно
Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.
Начать бесплатно