NLab Marker – это платформа для разметки данных для машинного обучения от компании “Наносемантика”.
Какие данные можно размечать на маркере?
Разметка аудио
Позволяет отметить, была ли исходная аудиозапись хорошего или плохого для разметки качества, а также мгновенно исправить отекстовку аудиозаписи.
Разметка категорий и сущностей
Позволяет выделить в тексте определенный набор символов и присвоить им какую либо сущность (например, приветствие, ФИО, жалоба), или присвоить категорию для всего текста для последующего анализа.
Работа с текстовыми данными
Включает следующие возможности:
- поиск и исключение персональных данных из датасета
- исправление отекстовки аудио
- редактирование длины аудиофайла под отекстовку
- оценка качества аудиозаписи
Разметка изображений
Включает панель инструментов с возможностью расстановки дополнительных тегов для подготовки обучающей выборки.
Возможна кастомизация инструментария под заказчика.
Модуль для диктора
Позволяет дикторам записывать аудио, из которых в дальнейшем формируется датасет для синтеза речи.
Какие есть способы проверки разметчиков?
1. Ханипоты, или примеры-ловушки
Программа заранее знает ответ на них и сравнивает, как ответил разметчик. Такой способ позволяет сразу отсеивать невнимательных исполнителей.
2. Таймер
Программа не даст разметчику закрыть страницу с заданиями ранее минимального заданного времени, которое рассчитывается по результатам тестовой разметки.
3. Валидация данных
Например, платформа может при необходимости запретить в текстовых данных использование латиницы, цифр (1, 2 и т. д.), знаков препинания.
Преимущества работы с NLab Marker
- Скорость и доступность
Опытные разметчики выполняют любой объем работы с необходимой скоростью из любой точки мира в режиме 24/7.
- Экономия времени и денег
Возможность устанавливать индивидуальные сроки и стоимость выполнения задач под проект.
- Контроль качества
Повышенная точность разметки данных с помощью встроенных методов и инструментов контроля качества
- Интеграция по API
Возможность создавать полностью автоматизированные процессы разметки данных in-house.