Точно так же, как автомобиль не заведётся с пустым баком, так и искусственный интеллект не сможет выполнять свои задачи без датасета. Датасеты – это топливо для нейросетей. Неважно, какую конечную цель вы преследуете: хотите обучить нейросеть отслеживать номера машин с помощью камер, распознавать или синтезировать речь, создать чат-боты на нейросетях – без хорошего набора данных вы своей цели не достигнете.

Итак, какую же роль выполняет датасет? Он необходим для тренировки машинного обучения, что позволяет обучить систему и затем использовать ее для решения реальных задач. К примеру, мы хотим научить модель распознавать номера машин на фотографиях. Для этого нам нужен датасет с фотографиями автомобилей, на которых выделена рамка с номером. То есть мы показываем нейросети, где она должна искать необходимую информацию. Поэтому, чтобы искусственный интеллект научился правильно выполнять задачу, за него эту задачу сначала должен решить человек.

Пример изображения из размеченного набора данных

И чем больше размеченных данных, тем качественнее выполняет свою работу искусственный интеллект. Поэтому недостаточно обучить нейросеть только один раз. Её нужно постоянно совершенствовать и вносить обновления. А для этого нужны новые данные, объёмы которых во всём мире с каждым годом только увеличивается.

Но что важнее – количество или качество? Безусловно, качество. Если собрать огромный датасет с большим количеством ошибок, то смысла в этом не будет. Конечно, для каждой задачи важно преодолеть какой-то порог качественных данных, чтобы нейросеть смогла обучиться. Например, не менее 40 часов для синтеза речи, не менее 500 часов для распознавания речи. Но важно, что в любом случае упор ставится именно на качество данных.

Качественный датасет стоит дорого. Но что делать начинающим датасаентистам, если денег на создание датасета нет, а попрактиковаться хочется? Можно начать с поиска данных в открытом доступе. На нашем портале мы собираем различные датасеты и наборы данных с разных источников. Ознакомиться с ними можно в разделе Датасеты.

А для тех, кто прочитал статью до конца, мы приготовили бонус – ссылка на бесплатный датасет от Наносеманики для распознавания речи на русском и английском языках: https://github.com/sovaai/sova-dataset

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *