В нашей недавней статье мы начали рассматривать разные варианты разметки данных. Сегодня мы хотим продолжить эту тему, так как многие компании сталкиваются с вопросом, где организовать разметку данных для обучения нейросетей. 

Один из способов организации процессов по сбору и обработке данных — это краудсорсинг. Предлагаем сразу рассмотреть одну из известных крауд-платформ Яндекс.Толока. Чтобы более детально сравнить Толоку с другими способами разметки, рассмотрим сразу несколько факторов: скорость разметки, качество и стоимость. 

Краудсорсинг, несомненно, отличный вариант для проектов с простыми наборами данных. Поэтому мы брали для сравнения не простые задания (например, запись коротких аудио), а средние и сложные.

ИнструментСкорость разметкикачествостоимость
Бесплатный маркерсредняявысокоесредняя
Платный Маркерсредняявысокоевысокая
Заказать на сторонесредняявысокоевысокая
Яндекс.Толокабыстраянизкоевысокая
Оценки выставлены на основе личного опыта отдела сбора и разметки данных в Наносемантике в течении нескольких лет.

Как видно из таблицы, Толока выигрывает по скорости, но абсолютно проигрывает по качеству. А качество – самый главный параметр для разметки. Если качество не соответствует уровню, который необходим для корректного обучения, то нейросеть, обученная на таких данных, работать не будет.

Чтобы не быть голословными по качеству разметки на Толоке, приведём собственный пример. Мы разместили на платформе две задачи. Первая — записать 5 коротких аудио — была выполнена на отлично. Вторая задача была усложнена: необходимо было записать аудио длительностью 1 час на фоне естественного шума поезда. Правильно выполнили задание только 25% исполнителей. К тому же мы не можем быть уверены, что запись производилась рядом с реальным поездом, а не просто на фоне записанного шума.

В нашей таблице одинаковые параметры получились у платного маркера и заказе услуг разметке на стороне. Тут надо учитывать, что при разметке данных на стороне вы не можете быть уверены, что данные достанутся только вам. А также вы не можете контролировать всю группу разметчиков. При использовании маркера вы контролируете, обучаете и проверяете всех разметчиков, доводите до них обратную связь и сохраняете полезный датасет только у себя.

Получается, у Толоки только одни минусы? Нет, эта платформа идеально подходит для интуитивно понятных заданий с простыми инструкциями. В этом случае Толока выигрывает по всем параметрам: скорость, стоимость, удовлетворительное качество.

1 комментарий

  1. Спасибо, ваш сайт очень полезный!

Добавить комментарий

Ваш адрес email не будет опубликован.