Набор содержит 200 000 часов данных распознавания речи, записанных с помощью различного профессионального оборудования, охватывающих самые разные сцены. В записи с аутентичным акцентом участвовало 1960 носителей русского языка. Записанный сценарий разработан лингвистами и охватывает широкий спектр тем, включая общие, интерактивные, автомобильные и домашние. Текст вычитывается вручную с высокой точностью.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.