Хороший и качественный датасет — один из самых ценных компонентов, необходимых для машинного обучения. Эффективность такого обучения напрямую зависит от достаточного количества данных. Соответственно, чем больше данных, тем эффективнее будет работа с искусственным интеллектом. К сожалению, для многих реальных задач получить хороший датасет довольно дорого.

Один из выходов из этой ситуации – это использование открытых данных, которые можно найти в интернете. Обычно такие данные предоставляют различные сообщества open-source и некоторые крупные компании. С каждым годом объём общедоступных данных растёт, и такие датасеты вполне подходят для решения определённых задач.

Мы также используем в своей работе общедоступные данные. Поэтому решили собрать на портале различные датасеты из открытых источников. С нашей коллекцией, которая постоянно пополняется, вы можете ознакомиться в соответствующем разделе. Каждый датасет содержит ссылку на источник и подробное описание.

Многоязычный набор голосовых данных с открытым исходным кодом

Каждая запись в наборе данных состоит из уникального файла MP3 и соответствующего текстового файла. Многие из 20 217 записанных часов ...
Далее

Набор данных для ответов на вопросы базы знаний

Качественный датасет состоит из 1500 русских вопросов разной сложности, их английских машинных переводов, SPARQL-запросов к Викиданным, справочных ответов, а также ...
Далее

Набор данных для обнаружения спама

Набор содержит 4601 электронное письмо, помеченное как спам и не спам. Получить более подробную информацию о проекте, а также скачать ...
Далее

Набор данных для анализа настроения клиентов авиакомпании

Набор содержит более 15 000 твитов об авиакомпаниях. Данные Twitter были извлечены с февраля 2015 года, и участников попросили сначала классифицировать ...
Далее

Набор данных из групп новостей

Набор данных состоит примерно из 20 000 документов, разделенных равномерно по 20 различным группам новостей. Коллекция стала популярным набором данных ...
Далее

Набор данных для обучения беспилотных автомобилей

Яндекс разработал и опубликовал крупнейший датасет для обучения беспилотных автомобилей прогнозированию движений других машин и пешеходов. Он содержит в себе данные, эквивалентные 69 дням непрерывной ...
Далее

Набор данных обнаружения аномалий для визуального осмотра

Набор данных изображений для методов обнаружения аномалий с упором на промышленный контроль. Поднабор данных каждой категории состоит из обучающего набора изображений ...
Далее

Набор данных с городскими пейзажами

Крупномасштабный набор данных, ориентированный на семантическое понимание городских уличных сцен. Он предоставляет семантические, экземплярные и плотные пиксельные аннотации для 30 классов, ...
Далее

Набор изображений человеческих лиц

Высококачественный набор изображений человеческих лиц, изначально созданный в качестве эталона для генеративно-состязательных сетей (GAN). Набор данных состоит из 70 000 ...
Далее

Набор данных спутниковых изображений

Один из крупнейших общедоступных наборов данных изображений с высоты птичьего полета. Он содержит изображения сложных сцен со всего мира, аннотированные с ...
Далее

Набор текстовых данных для языкового моделирования для русского языка

Впервые для русского языка с нуля был разработан бенчмарк из девяти заданий, собранных и организованных по аналогии с методикой SuperGLUE. По ...
Далее

Набор аудио, извлечённых из видео

Набор аудиоданных, содержащий более 100 000 высказываний 1251 знаменитости, извлеченных из видео, загруженных на YouTube.  Получить более подробную информацию о ...
Далее

Набор данных распознавания действий

Это набор данных для распознавания действий, состоящий из реалистичных видеороликов с действиями, собранных с YouTube и имеющих 101 категорию действий ...
Далее

Набор данных концептуальных подписей

Концептуальные подписи — это набор данных, содержащий пары (URL-адрес изображения, подпись), предназначенные для обучения и оценки машинно-обучаемых систем подписей к ...
Далее

Набор данных для ответов на вопросы «да/нет»

Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, ...
Далее

Набор данных из музыки, речи и шума

Этот набор данных подходит для моделей обучения обнаружению голосовой активности (VAD) и различению музыки и речи. Набор данных состоит из музыки ...
Далее

Датасет с изображениями сцен внутри помещений

Датасет Hyperism от команды машинного обучения Apple с 77,4 тыс. изображениями 461 сцены внутри помещений для обучения ИИ-алгоритмов. Набор данных ...
Далее

Набор данных для обучения ИИ решению задач в области программирования

Набор данных IBM Project CodeNet с 14 млн образцами программного кода для обучения ИИ решению задач в области программирования. Цель ...
Далее

Датасет с размеченными речевыми данными на русском языке

Набор данных в основном состоит из записанных аудиофайлов, аннотированных вручную на краудсорсинговой платформе. Общая продолжительность аудио составляет около 1240 часов ...
Далее

Записи английской речи

Данные собраны из примерно 1000 часов чтения английской речи с частотой 16 кГц. Данные получены из прочитанных аудиокниг из проекта LibriVox ...
Далее

Набор фотографий пешеходов

Возможность распознавать атрибуты пешеходов, такие как пол и стиль одежды на большом расстоянии представляет практический интерес в сценариях наблюдения вдали, ...
Далее

Набор данных обзоров фильмов

Это набор данных для двоичной классификации тональности. Состоит из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для ...
Далее

Набор данных из логотипов разных компаний

Набор данных содержит 167140 изображений логотипов из 10 категорий: еда, одежда, транспорт и другие. Получить более подробную информацию о проекте, ...
Далее

Набор фотографий с изображением толпы людей

Набор данных из 4372 изображений и 1,51 миллиона аннотаций. Предлагаемый набор данных собирается при различных сценариях и условиях окружающей среды . Кроме того, набор данных предоставляет ...
Далее

Набор статей и различных публикаций

Данный набор состоит из 2,7 миллионов новостных статей и эссе из 27 американских изданий. Включает дату, заголовок, публикацию, текст статьи, название ...
Далее

Набор гигапиксельных изображений и видео с изображением людей

Данный набор предназначен для крупномасштабного, долгосрочного и многообъектного визуального анализа. Он состоит из 555 статических изображений (390 для обучения, 165 ...
Далее

Набор данных: повседневные действия людей в квартире

Эти данные были записаны в квартире, оборудованной 7 камерами. Набор содержит 31 повседневную деятельность и 18 предметов. Испытуемые - пожилые ...
Далее

Набор данных для обнаружения и распознавания текста с видеорегистраторов

Основное требование для создания интеллектуальных систем помощи водителю и самостоятельного вождения - это качественное восприятие текста, который встречается на проезжей ...
Далее

Набор данных по автономному вождению

Представленный набор данных с открытым исходным кодом позволяет изучать сложные городские дорожные ситуации, используя полный комплект датчиков настоящего беспилотного автомобиля ...
Далее

Набор данных: томография лёгких

Набор данных COVID-CT-Dataset содержит 349 изображений со снимками компьютерной томографии лёгких, содержащих клинические данные о COVID-19 от 216 пациентов. В ...
Далее