Общедоступный многоязычный корпус для перевода речи. Он охватывает восемь языковых направлений, от английского до немецкого, испанского, французского, итальянского, голландского, португальского, румынского и русского. Корпус состоит из аудиозаписей, транскрипций и переводов выступлений TED на английском языке, а также включает в себя предопределенные разделы для обучения, проверки и тестирования.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.