1. labelstud.io
![](https://marker.im/wp-content/uploads/2022/04/e0f9f17761afa47e4c6b080b729206f4-1.gif)
Начнем с его плюсов:
- Легко поднять и настроить. Ну то есть буквально две строчки в командной строке.
- Весь интерфейс достаточно интуитивный.
- Есть поддержка мультилейбла, иерархической классификации, relation extraction и прочих достаточно “экзотических” в NLP штук.
- Можно задавать свои шаблоны (templates) разметки если знаешь html.
- Можно запиливать свои модели, чтобы учились в режиме онлайн и делали pre-annotation + интеграции с различными БД.
- Кроме текста можно размечать и аудио.
- Есть open-source версия.
Минусы:
- Несмотря на интуитивность, в UI достаточно большое количество багов.
- Часть функционала отсутствует в бесплатной версии (об этом ниже).
- Достаточно дорогая платная версия.
В целом произвел впечатление добротного проекта на стадии поздней беты (в основном из-за интерфейса). Но при этом даже open-source версия поддерживает кучу полезных штук: пре-аннотации с моделями ML, интеграции с различными БД, кучу различных шаблонов и типов данных. Ну и сам факт, что ее можно быстро завести и настроить, уже говорит о многом.
Менеджмент проектов однако остается открытым вопросом – на мой взгляд, в бесплатной версии это сделано не очень удобно: ты создаешь проект и загружаешь туда диалоги, каждая реплика – отдельная задача (аннотация). В итоге придется под каждого разметчика (и под каждый пак данных!) создавать свой проект – это все будет разрастаться очень быстро и за этим придется активно следить. Менеджерить это все будет при небольшой команде (10 человек, +/-), наверное, не очень сложно, но если будете расти – придется думать, что с этим делать.
Не совсем понятно, насколько лучше ситуация в платной версии: не факт, что разделение админ/разметчик даст более прозрачную структуру проектов. Впрочем, у меня сложилось впечатление, что если эту самую структуру хорошо огранизовать и пару вечеров плотно покурить документацию с API – можно и на open-source версии жить очень долгое время.
Более подробно об отличиях платной и open-source версии можно почитать здесь. Основное отличие заключается в том, что у вас просто больше контроля над разметчиками: можно заводить задания под конкретных людей, иметь разделения на администратора/разметчика, подробные логи активности с аналитикой, автоматически производить кросс-валидацию и хостить сам сервис на серверах labelstudio.
Цены:
- Open-source – бесплатно.
- 300$ / пользователь / месяц (до 10 людей) за “team edition” которая лучше, чем open-source, но все равно имеет кучу ограничений, самое важное – нет разделения на разметчика/админа + нельзя заводить задания на конкретного пользователя. Какой-то сомнительный middle-ground, который, кажется, не стоит своих денег.
- Цена за enterprise не оглашается, но при большой команде это наверное единственный вариант, который, вероятнее всего, обойдется в копеечку.
2. tagtog.net
![](https://marker.im/wp-content/uploads/2022/04/924bd9f4ae432b2fcbebc7157afe8f53-1-1024x621.jpg)
Из плюсов:
- Выглядит достаточно готовым продуктом, занимаются именно NLP (что, кстати, одновременно и минус, потому что в labelstudio, например, можно и аудио размечать, а нам это потенциально может быть очень кстати).
- Есть relation extraction и всякие другие полезные шаблоны.
- Есть open-source версия.
- Платная версия не очень дорогая.
- Можно впиливать свои модели, обученные на уже размеченных данных для пре-аннотаций того, что еще не разметили.
Из минусов:
- Загрузка файлов только через CLI, в интерфейсе такой возможности просто нет.
- Менеджмент проектов как в labelstudio, только с лишней головной болью насчет загрузки. Особенно печально если менеджерить это будет человек далекий от IT.
- UI на троечку (субъективно).
Работа по API, опять вопросы персональных данных, да и мне лично не очень комфортно когда ты чужой веб-сайт для таких вещей используешь, а не у себя что-то поднимаешь – просто гораздо меньше контроля над происходящим.
В целом выглядит так, что если вам не понравится open-source версия labelstudio – это второе, на что можно обратить внимание, если вы решите вопросы персональных данных.
С ценами можно ознакомиться здесь. Я бы не брал ничего ниже team pro (99$ / usr / month) т.к. пре-аннотации и разделение на разметчика / администратора – очень важные штуки, которые могут сэкономить вам в дальнейшем кучу времени и нервов.
3. prodi.gy – от создателей SpaCy
![](https://marker.im/wp-content/uploads/2022/04/a830069079ddc505cb9f9f1ce93aa5dd-1-1024x501.png)
Плюсы:
- Недорогие (500$ / год).
- Есть демо версия (просто разметка) которую можно пощупать на сайте.
Минусы:
- Абсолютно упоротый CLI, который при достаточно большом шаблоне становится ну совсем неподъемным. Например, список лейблов нужно прописывать в консоли при создании проекта.
- Нет опенсорс версии чтобы пощупать, что к чему.
- Впиливать модели для пре-аннотаций можно только из SpaCy.
- Документация на троечку и не отвечает на многие вопросы.
- UI на троечку (опять же, очень субъективно).
- Про менеджмент проектов всего пару слов и выглядит так, как будто он не очень хорошо продуман.
В принципе, достаточно сказано. Выглядит, как очень узкоспециализированный инструмент для тех, кто плотно работает со SpaCy. Если это про вас, то больше информации можно найти на официальном сайте.
4. NLab Marker
![](https://marker.im/wp-content/uploads/2022/04/Рисунок3-1-1024x426.jpg)
Это наш собственный маркер. Более подробно о нём можно почитать в нашей статье о маркере.
Статья написана на основании обзора на Habr.