Если вы задались целью изучить машинное обучение, то стоит начать с общего понимания ключевых терминов и фраз, таких как датасет и разметка данных.
Датасет (или набор данных) — это набор структурированных данных и информации, предназначенных для обучения моделей нейронных сетей.
Набор данных состоит из двух компонентов – это строки и столбцы. Строки называются объектами, а столбцы – признаками (иногда их ещё называют переменными или измерениями).
Ключевой особенностью набора данных является то, что он организован таким образом, что каждая строка содержит одно наблюдение. Наблюдение непосредственно связано с процессом сбора информации.
ФИО | Образование | Должность | Стаж работы |
Смирнов Алексей | высшее | Начальник отдела | 8 лет |
Коломченко Иван | общее | Слесарь | 10 лет |
Демьянова Татьяна | высшее | Бухгалтер | 7 лет |
В приведенной выше таблице, например, чтобы заполнить информацию по строкам, специалист наблюдает за первым сотрудником и спрашивает, «каково его образование, должность и стаж работы». Для Смирнова Алексея ответы: «высшее», «Начальник отдела» и «8 лет».
Поскольку для каждого сотрудника имеется одна строка, этот набор данных подходит для проведения анализа, когда единицей анализа является сотрудник.
Датасет может состоять из различных данных. Это может быть текст, изображения, аудио, видео, статистические данные и другое.
Для чего нужен датасет?
В машинном обучении датасет нужен для тренировки модели, чтобы обучить систему и затем использовать ее для решения реальных задач.
Но чтобы использовать набор данных для обучения, его необходимо обработать. Для этого требуется идентификация необработанных данных (то есть изображений, текстовых файлов, видео), а затем добавление одной или нескольких меток к этим данным, чтобы показать модели машинного обучения целевые атрибуты — ответы — которые она должна предсказывать. Метка или тег — это описательный элемент, который сообщает модели, что представляет собой отдельный фрагмент данных, чтобы она могла изучить его на примере. Скажем, модель должна предсказать музыкальный жанр. В этом случае набор обучающих данных будет состоять из нескольких песен с метками, показывающими такие жанры, как поп, джаз, рок и т. д. Этот процесс называется разметка (или аннотация) данных.
Таким образом, помеченные данные подчеркивают особенности данных (характеристики), чтобы помочь модели анализировать информацию и выявлять закономерности в исторических данных, чтобы делать точные прогнозы на основе новых, релевантно похожих входных данных.