Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the logo-carousel-free domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the ninja-forms domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-yandex-metrika domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the antispam-bee domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the luckywp-glossary domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rise-builder domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Warning: Cannot modify header information - headers already sent by (output started at /var/www/html/wp-includes/functions.php:6121) in /var/www/html/wp-content/plugins/advanced-iframe/advanced-iframe.php on line 390 Яндекс.Толока: плюсы и минусы платформы - Портал по разметке данных

В нашей недавней статье мы начали рассматривать разные варианты разметки данных. Сегодня мы хотим продолжить эту тему, так как многие компании сталкиваются с вопросом, где организовать разметку данных для обучения нейросетей. 

Один из способов организации процессов по сбору и обработке данных – это краудсорсинг. Предлагаем сразу рассмотреть одну из известных крауд-платформ Яндекс.Толока. Чтобы более детально сравнить Толоку с другими способами разметки, рассмотрим сразу несколько факторов: скорость разметки, качество и стоимость. 

Краудсорсинг, несомненно, отличный вариант для проектов с простыми наборами данных. Поэтому мы брали для сравнения не простые задания (например, запись коротких аудио), а средние и сложные.

ИнструментСкорость разметкиКачествоСтоимость
Бесплатный Маркерсредняявысокоесредняя
Платный Маркерсредняявысокоевысокая
Заказать на сторонесредняявысокоевысокая
Яндекс.Толокабыстраянизкоевысокая
Оценки выставлены на основе личного опыта отдела сбора и разметки данных в Наносемантике в течении нескольких лет.

Как видно из таблицы, Толока выигрывает по скорости, но абсолютно проигрывает по качеству. А качество – самый главный параметр для разметки. Если качество не соответствует уровню, который необходим для корректного обучения, то нейросеть, обученная на таких данных, работать не будет.

Чтобы не быть голословными по качеству разметки на Толоке, приведём собственный пример. Мы разместили на платформе две задачи. Первая – записать 5 коротких аудио – была выполнена на отлично. Вторая задача была усложнена: необходимо было записать аудио длительностью 1 час на фоне естественного шума поезда. Правильно выполнили задание только 25% исполнителей. К тому же мы не можем быть уверены, что запись производилась рядом с реальным поездом, а не просто на фоне записанного шума.

В нашей таблице одинаковые параметры получились у платного Маркера и заказе услуг разметке на стороне. Тут надо учитывать, что при разметке данных на стороне вы не можете быть уверены, что данные достанутся только вам. А также вы не можете контролировать всю группу разметчиков. При использовании Маркера вы контролируете, обучаете и проверяете всех разметчиков, доводите до них обратную связь и сохраняете полезный датасет только у себя.

Получается, у Толоки только одни минусы? Нет, эта платформа идеально подходит для интуитивно понятных заданий с простыми инструкциями. В этом случае Толока выигрывает по всем параметрам: скорость, стоимость, удовлетворительное качество.

One thought on “Яндекс.Толока: плюсы и минусы платформы

  1. Спасибо, ваш сайт очень полезный!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *