Статья УЛУЧШЕНИЕ МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧИ С ПОМОЩЬЮ ДИАРИЗАЦИИ | Научно-практический журнал широкого профиля «Наука, техника и образование»

Авторы: Васенков Павел Андреевич , Лысенко Олег Дмитриевич , Щеглов Владислав Андреевич

Опубликовано: 17.10.2024

Опубликовано в выпуске: СВ2/2024 (КНИИТМУ) (49)

Рубрика: Новые технологии в разработке продукции и диверсификация производства

wav2vec, whisper, pyannote, диаризация, fine-tuning, Распознавание речи

Автоматическое распознавание речи (ASR) — это технология, которая преобразует речь в текст. Чтобы обучить модель ASR, нужно подготовить набор данных, содержащий аудиозаписи человеческой речи и соответствующие им текстовые расшифровки. Модель обучается на этом наборе данных, чтобы научиться сопоставлять звуки речи с буквами и словами. Диаризация полезна в задаче распознавания речи, позволяет быстро навигации по сформированной стенограмме документа и поиску по ключевым словам. Это избавляет от необходимости многократно прослушивать аудиофайл для поиска необходимой информации. Был описан процесс диаризации и его необходимость в задаче распознавания речи. Написана программа для преобразования устной речи в текст, с разбиением на персоны.

Статья

УЛУЧШЕНИЕ МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧИ С ПОМОЩЬЮ ДИАРИЗАЦИИ

Новости

Ключевые слова