Точно так же, как автомобиль не заведётся с пустым баком, так и искусственный интеллект не сможет выполнять свои задачи без датасета. Датасеты – это топливо для нейросетей. Неважно, какую конечную цель вы преследуете: хотите обучить нейросеть отслеживать номера машин с помощью камер, распознавать или синтезировать речь, создать чат-боты на нейросетях – без хорошего набора данных вы своей цели не достигнете.
Итак, какую же роль выполняет датасет? Он необходим для тренировки машинного обучения, что позволяет обучить систему и затем использовать ее для решения реальных задач. К примеру, мы хотим научить модель распознавать номера машин на фотографиях. Для этого нам нужен датасет с фотографиями автомобилей, на которых выделена рамка с номером. То есть мы показываем нейросети, где она должна искать необходимую информацию. Поэтому, чтобы искусственный интеллект научился правильно выполнять задачу, за него эту задачу сначала должен решить человек.
И чем больше размеченных данных, тем качественнее выполняет свою работу искусственный интеллект. Поэтому недостаточно обучить нейросеть только один раз. Её нужно постоянно совершенствовать и вносить обновления. А для этого нужны новые данные, объёмы которых во всём мире с каждым годом только увеличивается.
Но что важнее – количество или качество? Безусловно, качество. Если собрать огромный датасет с большим количеством ошибок, то смысла в этом не будет. Конечно, для каждой задачи важно преодолеть какой-то порог качественных данных, чтобы нейросеть смогла обучиться. Например, не менее 40 часов для синтеза речи, не менее 500 часов для распознавания речи. Но важно, что в любом случае упор ставится именно на качество данных.
Качественный датасет стоит дорого. Но что делать начинающим датасаентистам, если денег на создание датасета нет, а попрактиковаться хочется? Можно начать с поиска данных в открытом доступе. На нашем портале мы собираем различные датасеты и наборы данных с разных источников. Ознакомиться с ними можно в разделе Датасеты.
А для тех, кто прочитал статью до конца, мы приготовили бонус – ссылка на бесплатный датасет от Наносеманики для распознавания речи на русском и английском языках: https://github.com/sovaai/sova-dataset