RAG-чат по транскрипту: новая возможность работы с записями
RAG (Retrieval-Augmented Generation) превращает архив транскриптов в умную базу знаний. Объясняем как это работает и зачем нужно.
Что такое RAG
RAG (Retrieval-Augmented Generation) — архитектура использования LLM, в которой:
- 1.Retrieval — извлекаем релевантные фрагменты из базы знаний по запросу пользователя
- 2.Augmentation — подмешиваем эти фрагменты в промпт LLM
- 3.Generation — LLM генерирует ответ на основе фрагментов
В контексте транскрибации: вместо того чтобы вручную листать 50-страничный транскрипт, вы задаёте вопрос «когда обсуждали инвестиции?» — система находит релевантные фрагменты и LLM отвечает цитатой с таймкодом.
Как работает в Dicto
Шаг 1: Векторизация транскрипта
После расшифровки текст делится на чанки 300-500 токенов (~2-3 предложения). Каждый чанк превращается в эмбеддинг — 1024-мерный вектор через модель Mistral mistral-embed. Векторы сохраняются в PostgreSQL с pgvector.
Шаг 2: Получение запроса
Вы задаёте вопрос на естественном языке: «Что эксперт говорил про криптовалюту?». Вопрос тоже превращается в 1024-мерный вектор.
Шаг 3: Поиск ближайших чанков
В базе ищем 5-10 чанков транскрипта, у которых эмбеддинг ближе всего к эмбеддингу вопроса. «Близость» — косинусная мера. Это семантический поиск: даже если в тексте не было слова «криптовалюта», но было «биткоин», «майнинг», «блокчейн» — они окажутся близкими векторами.
Шаг 4: Генерация ответа
LLM (Gemini 2.5 Flash в Dicto) получает промпт:
> «Вот фрагменты разговора: [5-10 найденных чанков]. Ответь на вопрос пользователя: "Что эксперт говорил про криптовалюту?". Цитируй фрагменты с указанием таймкодов.»
LLM генерирует ответ за 2-4 секунды.
Применения
1. Поиск по архиву подкастов
Подкастер выпустил 100 эпизодов за два года. Сделать классический поиск по тексту — найдёт только точные совпадения. RAG-чат: «В каком эпизоде гость говорил про продуктовый менеджмент?» — система найдёт эпизоды по смыслу, даже если буквально «продуктовый менеджмент» не звучало.
2. Подготовка к экзаменам по лекциям
Студент за семестр записал 30 лекций. Перед экзаменом: «Перечисли все упомянутые теоремы», «Что препод говорил про вопрос N?» — RAG-чат соберёт информацию из всего корпуса.
3. Анализ интервью для журналиста
Журналист берёт большое интервью (3 часа). Перед написанием статьи: «Какие ключевые цифры назвал гость?», «Какие источники он рекомендовал?», «Был ли спорный момент в разговоре?». Это быстрее чем пересматривать транскрипт целиком.
4. Поиск решений в корпоративных совещаниях
Менеджер ведёт записи всех встреч команды. Через месяц: «Когда мы обсуждали редизайн UI?», «Какое решение приняли по бюджету Q3?». Вместо ручного поиска — точный ответ с цитатами.
5. Анализ интервью с пользователями (UX research)
UX-исследователь провёл 20 интервью с пользователями. RAG-чат: «Какие пользователи жаловались на onboarding?», «Какие фичи чаще всего просили?», «Сколько раз упомянули конкурента X?».
6. Юридическая практика
Юрист расшифровывает заседания и допросы. RAG-чат: «Какие показания свидетель давал про дату инцидента?», «Как обвиняемый отвечал на вопросы прокурора?».
Качество результатов
RAG не магия — у технологии есть ограничения:
Что работает хорошо:
- Поиск конкретных тем в длинных записях
- Семантические запросы (не нужно точное совпадение слов)
- Цитирование с указанием источника
Что работает плохо:
- Подсчёт количественных метрик («сколько раз упомянули X?») — LLM часто ошибается в счётах
- Сравнительные запросы по большому объёму («в каком эпизоде упоминалось больше всего книг?»)
- Запросы на креативное обобщение всего архива (LLM получает только 5-10 чанков из тысяч)
Конкретные ограничения Dicto:
- Контекст LLM — 32K токенов. В RAG-чат подмешивается до 10 чанков (~3-5K токенов). Это достаточно для большинства задач, но не для «прочитай весь архив и сделай мета-анализ».
- Точность семантического поиска — 80-90%. Иногда найденные чанки не совсем релевантны.
- LLM может «галлюцинировать» — то есть выдумать что-то чего не было в транскрипте. Поэтому всегда проверяйте цитаты по таймкодам.
Сравнение с другими подходами
| Подход | Плюсы | Минусы |
|---|---|---|
| Ctrl+F по транскрипту | Бесплатно, точные совпадения | Не работает на семантике, нужно знать ключевые слова |
| Полный текст в ChatGPT | Понимает контекст | Лимит 32-128K токенов, не работает для длинных архивов |
| RAG-чат Dicto | Поиск по большому архиву, цитаты с таймкодами | Качество семантики 80-90%, нужна проверка |
| Ручной поиск через слушание | Высокое качество | 1-2 часа на типичный запрос |
Тарифы Dicto с RAG
RAG-чат доступен на всех платных тарифах. На Free — ограниченный (5 запросов в день). На Старт — 30 запросов в день. На Про — безлимит + расширенный поиск с фильтрами по дате/спикеру.
Технические детали для разработчиков
Если вам интересно реализовать RAG-чат у себя:
- Embedding model: mistral-embed (Mistral AI), 1024d, $0.0001 за 1K токенов
- Vector DB: pgvector в PostgreSQL — простое, бесплатное, индекс HNSW для быстрого поиска
- Chunk size: 300-500 токенов, overlap 50 токенов
- LLM: Gemini 2.5 Flash (быстро и дёшево) или GPT-4o (точнее, но дороже)
- Retrieval: top-5 чанков по cosine similarity, фильтрация по threshold
Self-hosted решение для 1000 транскриптов стоит ~$10-20 в месяц на embeddings + ~$50 на LLM-запросы.
Будущее RAG
В 2026-2027 ожидается:
- Multi-modal RAG: поиск не только по тексту, но и по аудио-эмбеддингам (тон голоса, эмоции)
- Cross-document reasoning: «Сравни мнения всех экспертов про крипту»
- Long-context RAG: с появлением моделей с контекстом 1M+ токенов RAG может частично потерять актуальность для средних архивов
Вывод
RAG-чат превращает мёртвый архив транскриптов в живую базу знаний. Для постоянно расшифровывающих пользователей (журналисты, подкастеры, исследователи) это инструмент, окупающий подписку в одиночку — экономия часов на поиске информации в записях.
Попробуйте Dicto бесплатно
Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.
Начать бесплатно