1. labelstud.io
Начнем с его плюсов:
- Легко поднять и настроить. Ну то есть буквально две строчки в командной строке.
- Весь интерфейс достаточно интуитивный.
- Есть поддержка мультилейбла, иерархической классификации, relation extraction и прочих достаточно “экзотических” в NLP штук.
- Можно задавать свои шаблоны (templates) разметки если знаешь html.
- Можно запиливать свои модели, чтобы учились в режиме онлайн и делали pre-annotation + интеграции с различными БД.
- Кроме текста можно размечать и аудио.
- Есть open-source версия.
Минусы:
- Несмотря на интуитивность, в UI достаточно большое количество багов.
- Часть функционала отсутствует в бесплатной версии (об этом ниже).
- Достаточно дорогая платная версия.
В целом произвел впечатление добротного проекта на стадии поздней беты (в основном из-за интерфейса). Но при этом даже open-source версия поддерживает кучу полезных штук: пре-аннотации с моделями ML, интеграции с различными БД, кучу различных шаблонов и типов данных. Ну и сам факт, что ее можно быстро завести и настроить, уже говорит о многом.
Менеджмент проектов однако остается открытым вопросом – на мой взгляд, в бесплатной версии это сделано не очень удобно: ты создаешь проект и загружаешь туда диалоги, каждая реплика – отдельная задача (аннотация). В итоге придется под каждого разметчика (и под каждый пак данных!) создавать свой проект – это все будет разрастаться очень быстро и за этим придется активно следить. Менеджерить это все будет при небольшой команде (10 человек, +/-), наверное, не очень сложно, но если будете расти – придется думать, что с этим делать.
Не совсем понятно, насколько лучше ситуация в платной версии: не факт, что разделение админ/разметчик даст более прозрачную структуру проектов. Впрочем, у меня сложилось впечатление, что если эту самую структуру хорошо огранизовать и пару вечеров плотно покурить документацию с API – можно и на open-source версии жить очень долгое время.
Более подробно об отличиях платной и open-source версии можно почитать здесь. Основное отличие заключается в том, что у вас просто больше контроля над разметчиками: можно заводить задания под конкретных людей, иметь разделения на администратора/разметчика, подробные логи активности с аналитикой, автоматически производить кросс-валидацию и хостить сам сервис на серверах labelstudio.
Цены:
- Open-source – бесплатно.
- 300$ / пользователь / месяц (до 10 людей) за “team edition” которая лучше, чем open-source, но все равно имеет кучу ограничений, самое важное – нет разделения на разметчика/админа + нельзя заводить задания на конкретного пользователя. Какой-то сомнительный middle-ground, который, кажется, не стоит своих денег.
- Цена за enterprise не оглашается, но при большой команде это наверное единственный вариант, который, вероятнее всего, обойдется в копеечку.
2. tagtog.net
Из плюсов:
- Выглядит достаточно готовым продуктом, занимаются именно NLP (что, кстати, одновременно и минус, потому что в labelstudio, например, можно и аудио размечать, а нам это потенциально может быть очень кстати).
- Есть relation extraction и всякие другие полезные шаблоны.
- Есть open-source версия.
- Платная версия не очень дорогая.
- Можно впиливать свои модели, обученные на уже размеченных данных для пре-аннотаций того, что еще не разметили.
Из минусов:
- Загрузка файлов только через CLI, в интерфейсе такой возможности просто нет.
- Менеджмент проектов как в labelstudio, только с лишней головной болью насчет загрузки. Особенно печально если менеджерить это будет человек далекий от IT.
- UI на троечку (субъективно).
Работа по API, опять вопросы персональных данных, да и мне лично не очень комфортно когда ты чужой веб-сайт для таких вещей используешь, а не у себя что-то поднимаешь – просто гораздо меньше контроля над происходящим.
В целом выглядит так, что если вам не понравится open-source версия labelstudio – это второе, на что можно обратить внимание, если вы решите вопросы персональных данных.
С ценами можно ознакомиться здесь. Я бы не брал ничего ниже team pro (99$ / usr / month) т.к. пре-аннотации и разделение на разметчика / администратора – очень важные штуки, которые могут сэкономить вам в дальнейшем кучу времени и нервов.
3. prodi.gy – от создателей SpaCy
Плюсы:
- Недорогие (500$ / год).
- Есть демо версия (просто разметка) которую можно пощупать на сайте.
Минусы:
- Абсолютно упоротый CLI, который при достаточно большом шаблоне становится ну совсем неподъемным. Например, список лейблов нужно прописывать в консоли при создании проекта.
- Нет опенсорс версии чтобы пощупать, что к чему.
- Впиливать модели для пре-аннотаций можно только из SpaCy.
- Документация на троечку и не отвечает на многие вопросы.
- UI на троечку (опять же, очень субъективно).
- Про менеджмент проектов всего пару слов и выглядит так, как будто он не очень хорошо продуман.
В принципе, достаточно сказано. Выглядит, как очень узкоспециализированный инструмент для тех, кто плотно работает со SpaCy. Если это про вас, то больше информации можно найти на официальном сайте.
4. NLab Marker
Это наш собственный маркер. Более подробно о нём можно почитать в нашей статье о маркере.
Статья написана на основании обзора на Habr.