УЛУЧШЕНИЕ МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧИ С ПОМОЩЬЮ ДИАРИЗАЦИИ

Опубликовано в выпуске: СВ2/2024 (КНИИТМУ) (49)
Автоматическое распознавание речи (ASR) — это технология, которая преобразует речь в текст. Чтобы обучить модель ASR, нужно подготовить набор данных, содержащий аудиозаписи человеческой речи и соответствующие им текстовые расшифровки. Модель обучается на этом наборе данных, чтобы научиться сопоставлять звуки речи с буквами и словами. Диаризация полезна в задаче распознавания речи, позволяет быстро навигации по сформированной стенограмме документа и поиску по ключевым словам. Это избавляет от необходимости многократно прослушивать аудиофайл для поиска необходимой информации. Был описан процесс диаризации и его необходимость в задаче распознавания речи. Написана программа для преобразования устной речи в текст, с разбиением на персоны.

Новости

Полезные ресурсы