Точность распознавания речи: что на неё влияет (WER, шум, акцент)
Точность 98% звучит впечатляюще, но что это значит на практике? Разбираем метрику WER, влияние шума, акцентов и других факторов.
Что такое WER
WER (Word Error Rate) — стандартная метрика точности ASR-систем. Формула:
WER = (Substitutions + Deletions + Insertions) / Total Words × 100%
Где:
- Substitutions — слова заменены (сказали «привет», распознано «приют»)
- Deletions — пропущены (сказали «как ты дела», распознано «как дела»)
- Insertions — лишние (сказали «привет», распознано «привет да»)
WER 2% означает 2 ошибки на каждые 100 слов. На часовой записи (~9000 слов на русском при средней скорости речи) это ~180 ошибок. WER 5% — 450 ошибок. WER 10% — 900 ошибок.
Сравнение по сервисам
| Сервис | WER на чистом русском | На записи со смартфона | Телефон 8 kHz |
|---|---|---|---|
| Voxtral V2 (Dicto) | 2-3% | 4-5% | 6-8% |
| Whisper Large v3 | 4-5% | 6-8% | 10-12% |
| Yandex SpeechKit | 4-6% | 7-9% | 11-13% |
| Google Speech-to-Text | 5-6% | 7-9% | 10-14% |
| Сбер SaluteSpeech | 5-7% | 8-10% | 12-15% |
Цифры варьируются от теста к тесту — но порядок одинаковый.
Факторы, влияющие на точность
1. Качество записи
| Источник | WER на русском |
|---|---|
| Студийный микрофон в звукопоглощённой комнате | 2-3% |
| Качественный USB-микрофон дома | 3-5% |
| Смартфон iPhone/Samsung топ-серия | 4-6% |
| Смартфон бюджетный | 6-9% |
| Встроенный микрофон ноутбука | 7-12% |
| Диктофон Sony профессиональный | 4-6% |
| Телефонный разговор (8 kHz) | 8-12% |
| Запись со старой плёночной кассеты | 15-25% |
Что улучшает:
- Микрофон ближе ко рту (10-30 см)
- Без эха в комнате (звукопоглощающие панели)
- Высокий битрейт записи (MP3 320 kbps или WAV)
- Один говорящий за раз
Что портит:
- Микрофон на столе в метре от говорящего
- Эхо в пустой комнате
- Низкий битрейт (MP3 64 kbps)
- Фоновая музыка, шум транспорта
2. Скорость речи
Средняя скорость русской речи — 120-150 слов в минуту. Если человек говорит:
- 90 wpm (медленно, лекция) — WER снижается на 1-2 пункта
- 120 wpm (нормально) — WER базовый
- 180 wpm (быстро, например молодёжная речь) — WER возрастает на 2-3 пункта
- 250+ wpm (скороговорка, чтение по бумажке) — WER может вырасти в 2-3 раза
3. Акцент
| Акцент русского | Влияние на WER |
|---|---|
| Литературный (Москва, Петербург, СПб) | базовый |
| Сибирский/уральский | +0,5-1% |
| Кубанский/донской | +1-2% |
| Кавказский (армянский, грузинский) | +2-4% |
| Среднеазиатский (узбекский, таджикский) | +3-5% |
| Иностранный (китайский, индийский русский) | +5-10% |
Модели лучше справляются с акцентами, которые были в обучающих данных. Voxtral V2 видел много русского с акцентами Центральной Азии — для пользователей из РК/Узбекистана/Кыргызстана точность остаётся высокой.
4. Возраст говорящего
| Возраст | WER |
|---|---|
| Дети 4-6 лет | +5-10% (нечёткая дикция) |
| Дети 7-12 лет | +2-3% |
| Подростки 13-18 | +1% |
| Взрослые 19-65 | базовый |
| Пожилые 65-80 | +1-2% |
| Пожилые 80+ | +3-5% (возможные проблемы с дикцией) |
5. Эмоциональное состояние
- Нейтральная речь — базовый WER
- Возбуждённая, быстрая речь — +2-4%
- Плач, всхлипывания — +5-15%
- Смех — +3-5% (модель путает смех с речью)
- Шёпот — +10-20% (модели не обучаются на шёпоте)
6. Специальная лексика
| Тип лексики | Влияние |
|---|---|
| Бытовая | базовый |
| IT-термины (известные) | базовый |
| Медицинская терминология (общая) | +2-4% |
| Узкомедицинская (хирургия, кардиология) | +5-10% |
| Юридическая | +3-5% |
| Научная (физика, биология) | +5-10% |
| Слэнг, мат, разговорные обороты | +1-3% |
Решение для специальной лексики: словарь терминов в настройках Dicto. Добавьте 30-50 ключевых терминов — точность вырастет на 5-15% именно на этих терминах.
7. Количество спикеров
| Спикеров | Влияние на WER |
|---|---|
| 1 (монолог) | базовый |
| 2 (интервью) | базовый |
| 3-4 (групповая дискуссия) | +1-2% |
| 5-6 (совещание) | +2-3% |
| 10+ (большое собрание) | +3-5% |
Чем больше спикеров — тем больше шанс перекрытий речи, что снижает точность.
8. Микшинг с музыкой
Если в записи звучит музыка (заставка подкаста, фоновая музыка под голос):
- Музыка без вокала фоном тихо — +0-1% (модель устойчива)
- Громкая музыка под речь — +5-10%
- Песня с вокалом — +10-30% (распознавание пения слабое)
Как улучшить точность
На уровне записи
- 1.Используйте качественный микрофон
- 2.Записывайте в тихом помещении
- 3.Микрофон должен быть на расстоянии 10-30 см от рта
- 4.Высокий битрейт (MP3 192+ kbps, WAV 16-bit)
На уровне сервиса
- 1.Используйте словарь специальных терминов
- 2.Укажите язык явно если запись на чистом одном языке
- 3.Включите diarization если несколько спикеров
- 4.Не перегружайте файл — не пытайтесь расшифровать 10-часовое аудио одним куском
На уровне постобработки
- 1.Используйте AI-проверку грамматики (Grammarly для английского, Орфограммка для русского)
- 2.Прослушайте подозрительные фрагменты (Dicto показывает confidence score для каждого слова)
- 3.Поправьте имена собственные и числовые данные вручную
Какая точность нужна для разных задач
| Задача | Минимальный WER |
|---|---|
| Личные заметки для себя | 10-15% |
| Шоу-ноты подкаста | 5-10% |
| Статья в блог | 5-7% |
| Цитаты для журналистики | 3-5% |
| Юридические документы | 2-3% |
| Медицинская документация | 1-2% |
Для большинства задач 95-98% точности Voxtral V2 более чем достаточно. Для критических документов всегда нужна ручная проверка независимо от модели.
Вывод
Точность 98% звучит впечатляюще, но реальная цифра зависит от десятков факторов. Худшее что можно сделать — записать на встроенный микрофон ноутбука в шумном кафе и ожидать 98% — это будет 80-85% и куча правок. Хорошее аудио + Voxtral V2 в Dicto = 96-99% реальной точности.
Попробуйте Dicto бесплатно
Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.
Начать бесплатно