На видео разбирают простую задачу: есть набор из текстов и соответствующих аудио. Необходимо натренировать нейронную сеть, чтобы она, получая текст на входе, выдавала результат в виде аудио. На основе примера спикер подробно рассказывает о пайплайнах для решения этой задачи, о разных аудиофичах, про метрики этой задачи и про архитектуры сетей.
Источник: YouTube-канал ODS AI Ru