Хороший и качественный датасет — один из самых ценных компонентов, необходимых для машинного обучения. Эффективность такого обучения напрямую зависит от достаточного количества данных. Соответственно, чем больше данных, тем эффективнее будет работа с искусственным интеллектом. К сожалению, для многих реальных задач получить хороший датасет довольно дорого.

Один из выходов из этой ситуации — это использование открытых данных, которые можно найти в интернете. Обычно такие данные предоставляют различные сообщества open-source и некоторые крупные компании. С каждым годом объём общедоступных данных растёт, и такие датасеты вполне подходят для решения определённых задач.

Мы также используем в своей работе общедоступные данные. Поэтому решили собрать на портале различные датасеты из открытых источников. С нашей коллекцией, которая постоянно пополняется, вы можете ознакомиться в соответствующем разделе. Каждый датасет содержит ссылку на источник и подробное описание.

Набор фотографий пешеходов

Возможность распознавать атрибуты пешеходов, такие как пол и стиль одежды на большом расстоянии представляет практический интерес в сценариях наблюдения вдали, ...
«Далее»

Набор данных обзоров фильмов

Это набор данных для двоичной классификации тональности. Состоит из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для ...
«Далее»

Набор данных из логотипов разных компаний

Набор данных содержит 167140 изображений логотипов из 10 категорий: еда, одежда, транспорт и другие. Получить более подробную информацию о проекте, ...
«Далее»

Набор фотографий с изображением толпы людей

Набор данных из 4372 изображений и 1,51 миллиона аннотаций. Предлагаемый набор данных собирается при различных сценариях и условиях окружающей среды . Кроме того, набор данных предоставляет ...
«Далее»

Набор статей и различных публикаций

Данный набор состоит из 2,7 миллионов новостных статей и эссе из 27 американских изданий. Включает дату, заголовок, публикацию, текст статьи, название ...
«Далее»

Набор гигапиксельных изображений и видео с изображением людей

Данный набор предназначен для крупномасштабного, долгосрочного и многообъектного визуального анализа. Он состоит из 555 статических изображений (390 для обучения, 165 ...
«Далее»

Набор данных: повседневные действия людей в квартире

Эти данные были записаны в квартире, оборудованной 7 камерами. Набор содержит 31 повседневную деятельность и 18 предметов. Испытуемые - пожилые ...
«Далее»

Набор данных для обнаружения и распознавания текста с видеорегистраторов

Основное требование для создания интеллектуальных систем помощи водителю и самостоятельного вождения - это качественное восприятие текста, который встречается на проезжей ...
«Далее»

Набор данных по автономному вождению

Представленный набор данных с открытым исходным кодом позволяет изучать сложные городские дорожные ситуации, используя полный комплект датчиков настоящего беспилотного автомобиля ...
«Далее»

Набор данных: томография лёгких

Набор данных COVID-CT-Dataset содержит 349 изображений со снимками компьютерной томографии лёгких, содержащих клинические данные о COVID-19 от 216 пациентов. В ...
«Далее»