Каждая запись в наборе данных состоит из уникального файла MP3 и соответствующего текстового файла. Многие из 20 217 записанных часов в наборе данных также включают демографические метаданные, такие как возраст, пол и акцент, которые могут помочь в обучении точности механизмов распознавания речи. Набор данных в настоящее время состоит из 14 973 проверенных часов на 93 языках, но разработчики постоянно добавляют новые голоса и языки.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.