УЛУЧШЕНИЕ МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧИ С ПОМОЩЬЮ ДИАРИЗАЦИИ
Опубликовано: 17.10.2024
Опубликовано в выпуске:
СВ2/2024 (КНИИТМУ) (49)
Автоматическое распознавание речи (ASR) — это технология, которая преобразует речь в текст. Чтобы обучить модель ASR, нужно подготовить набор данных, содержащий аудиозаписи человеческой речи и соответствующие им текстовые расшифровки. Модель обучается на этом наборе данных, чтобы научиться сопоставлять звуки речи с буквами и словами. Диаризация полезна в задаче распознавания речи, позволяет быстро навигации по сформированной стенограмме документа и поиску по ключевым словам. Это избавляет от необходимости многократно прослушивать аудиофайл для поиска необходимой информации. Был описан процесс диаризации и его необходимость в задаче распознавания речи. Написана программа для преобразования устной речи в текст, с разбиением на персоны.
eLIBRARY.RU Наше издание в Научной Электронной Библиотеке eLIBRARY.RU
Публикационная активность журнала РИНЦ
Справочник по УДК Ресурс описывает универсальную десятичную классификацию (УДК)
Антиплагиат Система автоматической проверки текстов на наличие заимствований
МГТУ имени Н. Э. Баумана официальный сайт университета