Набор содержит 200 000 часов данных распознавания речи, записанных с помощью различного профессионального оборудования, охватывающих самые разные сцены. В записи с аутентичным акцентом участвовало 1960 носителей русского языка. Записанный сценарий разработан лингвистами и охватывает широкий спектр тем, включая общие, интерактивные, автомобильные и домашние. Текст вычитывается вручную с высокой точностью.

Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *