Датасеты

Хороший и качественный датасет — один из самых ценных компонентов, необходимых для машинного обучения. Эффективность такого обучения напрямую зависит от достаточного количества данных. Соответственно, чем больше данных, тем эффективнее будет работа с искусственным интеллектом. К сожалению, для многих реальных задач получить хороший датасет довольно дорого.

Один из выходов из этой ситуации – это использование открытых данных, которые можно найти в интернете. Обычно такие данные предоставляют различные сообщества open-source и некоторые крупные компании. С каждым годом объём общедоступных данных растёт, и такие датасеты вполне подходят для решения определённых задач.

Мы также используем в своей работе общедоступные данные. Поэтому решили собрать на портале различные датасеты из открытых источников. С нашей коллекцией, которая постоянно пополняется, вы можете ознакомиться в соответствующем разделе. Каждый датасет содержит ссылку на источник и подробное описание.

Набор данных для перевода речи

Набор данных русской речи по мобильному телефону

Набор записей звуков людей (смех, кашель и пр.)

Многоязычный набор голосовых данных с открытым исходным кодом

Набор данных для ответов на вопросы базы знаний

Набор данных для обнаружения спама

Набор данных для анализа настроения клиентов авиакомпании

Набор данных из групп новостей

Набор данных для обучения беспилотных автомобилей

Набор данных обнаружения аномалий для визуального осмотра

Набор данных с городскими пейзажами

Набор изображений человеческих лиц

Набор данных спутниковых изображений

Набор текстовых данных для языкового моделирования для русского языка

Набор аудио, извлечённых из видео

Набор данных распознавания действий

Набор данных концептуальных подписей

Набор данных для ответов на вопросы «да/нет»

Набор данных из музыки, речи и шума

Датасет с изображениями сцен внутри помещений

Набор данных для обучения ИИ решению задач в области программирования

Датасет с размеченными речевыми данными на русском языке

Записи английской речи

Набор фотографий пешеходов

Набор данных обзоров фильмов

Набор данных из логотипов разных компаний

Набор фотографий с изображением толпы людей

Набор статей и различных публикаций

Набор гигапиксельных изображений и видео с изображением людей

Набор данных: повседневные действия людей в квартире

Набор данных для обнаружения и распознавания текста с видеорегистраторов

Набор данных по автономному вождению

Набор данных: томография лёгких