Предварительная обработка данных — это метод интеллектуального анализа данных, который используется для преобразования необработанных данных в полезный и эффективный формат. Это важнейший этап, от качества выполнения которого зависит возможность получения качественных результатов всего процесса анализа данных. Также, следует помнить, что по некоторым оценкам этап предварительной обработки данных может занять до 80% всего времени, отведенного на проект.
Хотя существует несколько различных методов предварительной обработки данных, всю задачу можно разделить на несколько общих важных шагов: очистка данных, преобразование данных, интеграция данных и сокращение данных.
- Очистка данных
Реальные данные, как правило, неполные, зашумленные и противоречивые. Возможно, при вводе данных произошли человеческие или компьютерные ошибки. Также могут возникать ошибки при передаче данных.
Очистка данных является наиболее важным этапом предварительной обработки, потому что она гарантирует, что данные готовы к дальнейшим потребностям. Очистка данных исправит все несогласованные данные, которые вы обнаружили при оценке качества данных.
- Преобразование данных
Это процесс преобразования данных в надлежащий формат(ы), которые понадобятся для анализа и других последующих процессов.
Обычно это происходит в одном или нескольких из следующих случаев:
- Агрегация (объединяет все данные вместе в едином формате)
- Нормализация (масштабирует данные до упорядоченного диапазона)
- Выбор признаков (процесс принятия решения о том, какие переменные наиболее важны для анализа)
- Дискредитация (объединяет данные в меньшие интервалы)
- Генерация иерархии концепций (может добавить иерархию внутри объектов и между ними, которой не было в исходных данных)
- Интеграция данных
Это процесс объединения данных из нескольких источников в единый набор данных. Это включает в себя интеграцию схемы, т. е. интеграцию метаданных из разных источников и разрешение конфликтов значений данных, которые могут возникнуть из-за различий в единицах измерения, представлении и т. д.
- Сокращение данных
Методы сокращения данных направлены на получение сокращенного представления данных с точки зрения объема при сохранении целостности исходных данных.
Различные стратегии сокращения данных включают:
- Уменьшение размерности: уменьшение размерности осуществляется за счет уменьшения количества учитываемых атрибутов.
- Уменьшение количества: включает замену исходных данных меньшими формами представления данных для уменьшения объема.
- Сжатие данных: включает в себя применение преобразований для получения сжатого представления исходных данных. В зависимости от того, может ли реконструкция быть выполнена с потерей информации или без нее, этот метод называется сжатием без потерь или сжатием с потерями. Методы уменьшения размерности и уменьшения количества также считаются формами сжатия данных.
Процесс предварительной обработки данных иногда может быть утомительным, поскольку вы будете сталкиваться с различными данными, как структурированными, так и неструктурированными. И хотя может показаться, что проще всего собрать больше данных и просто обойтись ими, вскоре вы обнаружите, что нет никакого способа оправдать экономию на предварительной обработке данных.