Хороший и качественный датасет — один из самых ценных компонентов, необходимых для машинного обучения. Эффективность такого обучения напрямую зависит от достаточного количества данных. Соответственно, чем больше данных, тем эффективнее будет работа с искусственным интеллектом. К сожалению, для многих реальных задач получить хороший датасет довольно дорого.
Один из выходов из этой ситуации – это использование открытых данных, которые можно найти в интернете. Обычно такие данные предоставляют различные сообщества open-source и некоторые крупные компании. С каждым годом объём общедоступных данных растёт, и такие датасеты вполне подходят для решения определённых задач.
Мы также используем в своей работе общедоступные данные. Поэтому решили собрать на портале различные датасеты из открытых источников. С нашей коллекцией, которая постоянно пополняется, вы можете ознакомиться в соответствующем разделе. Каждый датасет содержит ссылку на источник и подробное описание.
Каждая запись в наборе данных состоит из уникального файла MP3 и соответствующего текстового файла. Многие из 20 217 записанных часов ...
Далее
Качественный датасет состоит из 1500 русских вопросов разной сложности, их английских машинных переводов, SPARQL-запросов к Викиданным, справочных ответов, а также ...
Далее
Набор содержит 4601 электронное письмо, помеченное как спам и не спам. Получить более подробную информацию о проекте, а также скачать ...
Далее
Набор содержит более 15 000 твитов об авиакомпаниях. Данные Twitter были извлечены с февраля 2015 года, и участников попросили сначала классифицировать ...
Далее
Набор данных состоит примерно из 20 000 документов, разделенных равномерно по 20 различным группам новостей. Коллекция стала популярным набором данных ...
Далее
Яндекс разработал и опубликовал крупнейший датасет для обучения беспилотных автомобилей прогнозированию движений других машин и пешеходов. Он содержит в себе данные, эквивалентные 69 дням непрерывной ...
Далее
Набор данных изображений для методов обнаружения аномалий с упором на промышленный контроль. Поднабор данных каждой категории состоит из обучающего набора изображений ...
Далее
Крупномасштабный набор данных, ориентированный на семантическое понимание городских уличных сцен. Он предоставляет семантические, экземплярные и плотные пиксельные аннотации для 30 классов, ...
Далее
Высококачественный набор изображений человеческих лиц, изначально созданный в качестве эталона для генеративно-состязательных сетей (GAN). Набор данных состоит из 70 000 ...
Далее
Один из крупнейших общедоступных наборов данных изображений с высоты птичьего полета. Он содержит изображения сложных сцен со всего мира, аннотированные с ...
Далее
Впервые для русского языка с нуля был разработан бенчмарк из девяти заданий, собранных и организованных по аналогии с методикой SuperGLUE. По ...
Далее
Набор аудиоданных, содержащий более 100 000 высказываний 1251 знаменитости, извлеченных из видео, загруженных на YouTube. Получить более подробную информацию о ...
Далее
Это набор данных для распознавания действий, состоящий из реалистичных видеороликов с действиями, собранных с YouTube и имеющих 101 категорию действий ...
Далее
Концептуальные подписи — это набор данных, содержащий пары (URL-адрес изображения, подпись), предназначенные для обучения и оценки машинно-обучаемых систем подписей к ...
Далее
Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, ...
Далее
Этот набор данных подходит для моделей обучения обнаружению голосовой активности (VAD) и различению музыки и речи. Набор данных состоит из музыки ...
Далее
Датасет Hyperism от команды машинного обучения Apple с 77,4 тыс. изображениями 461 сцены внутри помещений для обучения ИИ-алгоритмов. Набор данных ...
Далее
Набор данных IBM Project CodeNet с 14 млн образцами программного кода для обучения ИИ решению задач в области программирования. Цель ...
Далее
Набор данных в основном состоит из записанных аудиофайлов, аннотированных вручную на краудсорсинговой платформе. Общая продолжительность аудио составляет около 1240 часов ...
Далее
Данные собраны из примерно 1000 часов чтения английской речи с частотой 16 кГц. Данные получены из прочитанных аудиокниг из проекта LibriVox ...
Далее
Возможность распознавать атрибуты пешеходов, такие как пол и стиль одежды на большом расстоянии представляет практический интерес в сценариях наблюдения вдали, ...
Далее
Это набор данных для двоичной классификации тональности. Состоит из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для ...
Далее
Набор данных содержит 167140 изображений логотипов из 10 категорий: еда, одежда, транспорт и другие. Получить более подробную информацию о проекте, ...
Далее
Набор данных из 4372 изображений и 1,51 миллиона аннотаций. Предлагаемый набор данных собирается при различных сценариях и условиях окружающей среды . Кроме того, набор данных предоставляет ...
Далее
Данный набор состоит из 2,7 миллионов новостных статей и эссе из 27 американских изданий. Включает дату, заголовок, публикацию, текст статьи, название ...
Далее
Данный набор предназначен для крупномасштабного, долгосрочного и многообъектного визуального анализа. Он состоит из 555 статических изображений (390 для обучения, 165 ...
Далее
Эти данные были записаны в квартире, оборудованной 7 камерами. Набор содержит 31 повседневную деятельность и 18 предметов. Испытуемые - пожилые ...
Далее
Основное требование для создания интеллектуальных систем помощи водителю и самостоятельного вождения - это качественное восприятие текста, который встречается на проезжей ...
Далее
Представленный набор данных с открытым исходным кодом позволяет изучать сложные городские дорожные ситуации, используя полный комплект датчиков настоящего беспилотного автомобиля ...
Далее
Набор данных COVID-CT-Dataset содержит 349 изображений со снимками компьютерной томографии лёгких, содержащих клинические данные о COVID-19 от 216 пациентов. В ...
Далее