Софт для разметки данных используют для обработки сырых данных, на которых будут обучаться модели машинного обучения. Такие сырые данные – это файлы, например, в виде текста, видео, аудио и во многих других форматах.
В этой статье мы хотим рассказать о своём опыте использования различных инструментов для разметки изображений.
- VGG Image Annotator (VIA)
VIA — это бесплатный проект с открытым исходным кодом, основанный исключительно на HTML, Javascript и CSS (без зависимости от внешних библиотек). Его можно использовать как для академических проектов, так и для коммерческих приложений.
Обладает достаточно простым интерфейсом. Проекты можно сохранять. Что касается проверки, то можно загрузить проект и еще раз проверить его. Также есть возможность работать оффлайн.
Важно отметить, что VIA не подойдёт для выполнения сложных задач, так как в функционале только самые простые инструменты.
- Computer Vision Annotation Tool (CVAT)
CVAT — это бесплатный инструмент с открытым исходным кодом. Он был написан на Python и JS с целью охвата всех основных задач по разметке изображений: классификации изображений, обнаружения объектов и сегментации изображений.
Он имеет достаточно интуитивно понятный интерфейс и набор функций, для освоения которых не требуется долгого обучения. Есть возможность совместной работы над проектом.
Не хватает автоматической проверки. Тестирование должно проводиться вручную.
- MedSeg
MedSeg — это бесплатный онлайн-инструмент с возможностями ручной сегментации и сегментации на основе искусственного интеллекта. Инструмент полностью работает в браузере и не требует регистрации. Оптимизирован для КТ и МРТ изображений.
Мы использовали MedSeg для работы с DICOM файлами. Удобно, что можно смотреть информацию о текущем срезе на картинке и настроить автоматическую предразметку. Из инструментов понравилась кисть с масштабом, заполнение замкнутой области. Возможно быстрое и простое управление в процессе сегментации с помощью клавиатуры.
- Supervisely
Supervisely — это мощная платформа для разработки компьютерного зрения, где отдельные разметчики и большие группы могут размечать и экспериментировать с наборами данных и нейронными сетями.
Содержит много инструментов: линии, прямоугольники, многоугольники и пиксельные кисти для семантической сегментации. Есть возможность рисования отверстий в полигонах, добавления тэгов изображений и объектов для упорядочивания фигур в слоях.
Очень удобно, что есть нейронка, на которой разметчик (не разработчик) может создать автоматическую предразметку.
- Label Studio
Label Studio – это инструмент разметки данных с открытым исходным кодом.
Поддерживает несколько различных типов аннотаций к изображениям: семантическую сегментацию, маркировку полигонов или ограничивающие рамки. При создании проекта инструмент можно настроить при помощи уникального Labeling Config, имеющего более пятидесяти шаблонов аннотирования, которые можно изменять, предоставляя разметчикам интуитивно понятный интерфейс, в котором есть только то, что необходимо для разметки данных. В интерфейсе разметки можно вывести на экран несколько изображений.