Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the logo-carousel-free domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the ninja-forms domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-yandex-metrika domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the antispam-bee domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the luckywp-glossary domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rise-builder domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121
Warning: Cannot modify header information - headers already sent by (output started at /var/www/html/wp-includes/functions.php:6121) in /var/www/html/wp-content/plugins/advanced-iframe/advanced-iframe.php on line 390
Warning: Cannot modify header information - headers already sent by (output started at /var/www/html/wp-includes/functions.php:6121) in /var/www/html/wp-content/plugins/all-in-one-seo-pack/app/Common/Meta/Robots.php on line 87
Warning: Cannot modify header information - headers already sent by (output started at /var/www/html/wp-includes/functions.php:6121) in /var/www/html/wp-includes/feed-rss2.php on line 8
The post Сбор текстовых данных для машинного обучения first appeared on Портал по разметке данных.
]]>Датасаентист Сбербанка рассказывает о сборе текстовых данных и построении корпусов. Корпус, с точки зрения машинного обучения, – это большой датасет. Это собранные тексты и некая разметка к ним. Хорошо подобранный корпус с достаточно низкой частотой слов способен решить большое количество проблем архитектуры.
Спикер делится своим опытом создания корпусов, рассказывает о закрытых и открытых источниках и как рассчитывать объём данных.
Источник: YouTube-канал ODS AI Global
The post Сбор текстовых данных для машинного обучения first appeared on Портал по разметке данных.
]]>The post Обработка текста. Решение задачи классификации first appeared on Портал по разметке данных.
]]>Видео состоит из лекции и семинара. Спикер рассказывает о том, что такое NLP, про обработку и текста и о том, какие задачи можно решить с помощью имеющихся данных.
Источник: YouTube-канал Deep Learning School
The post Обработка текста. Решение задачи классификации first appeared on Портал по разметке данных.
]]>The post Инструменты для разметки текста first appeared on Портал по разметке данных.
]]>1. labelstud.io

Начнем с его плюсов:
Минусы:
В целом произвел впечатление добротного проекта на стадии поздней беты (в основном из-за интерфейса). Но при этом даже open-source версия поддерживает кучу полезных штук: пре-аннотации с моделями ML, интеграции с различными БД, кучу различных шаблонов и типов данных. Ну и сам факт, что ее можно быстро завести и настроить, уже говорит о многом.
Менеджмент проектов однако остается открытым вопросом – на мой взгляд, в бесплатной версии это сделано не очень удобно: ты создаешь проект и загружаешь туда диалоги, каждая реплика – отдельная задача (аннотация). В итоге придется под каждого разметчика (и под каждый пак данных!) создавать свой проект – это все будет разрастаться очень быстро и за этим придется активно следить. Менеджерить это все будет при небольшой команде (10 человек, +/-), наверное, не очень сложно, но если будете расти – придется думать, что с этим делать.
Не совсем понятно, насколько лучше ситуация в платной версии: не факт, что разделение админ/разметчик даст более прозрачную структуру проектов. Впрочем, у меня сложилось впечатление, что если эту самую структуру хорошо огранизовать и пару вечеров плотно покурить документацию с API – можно и на open-source версии жить очень долгое время.
Более подробно об отличиях платной и open-source версии можно почитать здесь. Основное отличие заключается в том, что у вас просто больше контроля над разметчиками: можно заводить задания под конкретных людей, иметь разделения на администратора/разметчика, подробные логи активности с аналитикой, автоматически производить кросс-валидацию и хостить сам сервис на серверах labelstudio.
Цены:
2. tagtog.net

Из плюсов:
Из минусов:
Работа по API, опять вопросы персональных данных, да и мне лично не очень комфортно когда ты чужой веб-сайт для таких вещей используешь, а не у себя что-то поднимаешь – просто гораздо меньше контроля над происходящим.
В целом выглядит так, что если вам не понравится open-source версия labelstudio – это второе, на что можно обратить внимание, если вы решите вопросы персональных данных.
С ценами можно ознакомиться здесь. Я бы не брал ничего ниже team pro (99$ / usr / month) т.к. пре-аннотации и разделение на разметчика / администратора – очень важные штуки, которые могут сэкономить вам в дальнейшем кучу времени и нервов.
3. prodi.gy – от создателей SpaCy

Плюсы:
Минусы:
В принципе, достаточно сказано. Выглядит, как очень узкоспециализированный инструмент для тех, кто плотно работает со SpaCy. Если это про вас, то больше информации можно найти на официальном сайте.
4. NLab Marker

Это наш собственный маркер. Более подробно о нём можно почитать в нашей статье о маркере.
Статья написана на основании обзора на Habr.
The post Инструменты для разметки текста first appeared on Портал по разметке данных.
]]>The post Как анализировать текстовые данные? first appeared on Портал по разметке данных.
]]>В этой статье расскажем, что необходимо для создания инструмента анализа текста.

Какие методы машинного обучения используются для анализа текста?
Токенизация
Каждый токен представляет собой значимую единицу. Слова и знаки препинания являются токенами, а пробелы — нет.

Маркировка частями речи
Когда вы назначаете грамматическую категорию каждому токену, это тегирование части речи.

Лемматизация
Процесс удаления всех аффиксов (то есть суффиксов, префиксов и т. д.), прикрепленных к слову, чтобы сохранить его лексическую основу, также известную как корень, или его словарная форма, или лемма.
Стемминг
Удалив аффиксы из слова, вы получите основу, «чистую» форму слова. Google использует стемминг для индексации запросов. Вместо того, чтобы хранить все формы слова, лексикон сводится к основам. Процесс становится намного быстрее, но и менее точным, чем лемматизация.

Разбор
Существует два вида синтаксического анализа: зависимость и избирательный округ. Вы проводите разбор, когда хотите понять грамматическую структуру предложения.
Во время синтаксического анализа вы разбиваете текст на подфразы, также называемые составляющими. Это помогает представить структуру предложения. Недостаток: это контекстно-свободная грамматика. В предложении типа «Посещение родственников может быть скучно» алгоритм не смог бы понять двусмысленное значение. Тем не менее, это хорошо для проверки грамматики.

Анализ зависимостей идентифицирует основные слова в предложении и находит связанные слова, которые изменяют свое значение. Синтаксические отношения помогают понять, что означает предложение, особенно в синтетических языках , таких как славянские языки. Анализ зависимостей также применяется для проверки грамматики и обработки текстов, поскольку он может анализировать свободный порядок слов и фрагментированные предложения.

The post Как анализировать текстовые данные? first appeared on Портал по разметке данных.
]]>The post Методы анализа текста first appeared on Портал по разметке данных.
]]>Классификация текста — это процесс присвоения предопределенных тегов или категорий неструктурированному тексту. Он считается одним из самых полезных методов обработки естественного языка, потому что он настолько универсален и может организовывать, структурировать и классифицировать практически любую форму текста для предоставления значимых данных и решения проблем.

К наиболее распространенным задачам классификации текста можно отнести:
Анализ настроений (мнений)
Выявляет и изучает эмоции в тексте. Использует мощные алгоритмы машинного обучения для автоматического считывания и классификации по полярности мнений (положительные, отрицательные, нейтральные), по чувствам и эмоциям автора, даже по контексту и сарказму.
Тематический анализ
Классифицирует тексты по темам.
Обнаружение намерений
Используется для автоматического понимания причин обратной связи с клиентами. Это жалоба? Или клиент пишет с намерением приобрести продукт? Машинное обучение может читать разговоры чат-ботов или электронные письма и автоматически направлять их соответствующему отделу или сотруднику.
Извлечение текста — еще один широко используемый метод анализа текста, который извлекает фрагменты данных, которые уже существуют в любом заданном тексте. Можно извлекать ключевые слова, цены, названия компаний, спецификации продуктов и т. д.

Извлечение ключевых слов
Ключевые слова — это наиболее часто используемые и наиболее релевантные термины в тексте, слова и фразы, обобщающие содержание текста.
Распознавание объектов
Сущности — это люди, компании или места, упомянутые в тексте.
Метод анализа текста, который измеряет наиболее часто встречающиеся слова в тексте. Именно так можно определить тему текста и провести анализ настроений. Мы знаем, что слово «интересный» обычно относится к положительным впечатлениям. Так что если вы видите это слово в отзыве, значит, клиент доволен. Однако этот метод не чувствителен к сарказму, который может повлиять на общие результаты анализа.
Словосочетаниями называются два, три и более слова, которые часто употребляются вместе в речи. Одно и то же слово в разных словосочетаниях может иметь разное значение.
Коллокация может быть полезна для выявления скрытых семантических структур и повышения детализации информации за счет подсчета биграмм и триграмм как одного слова.

Конкорданс — это таблица, которая отображает разные значения одного и того же слова в разных контекстах. Анализ соответствия и словосочетаний полезен для устранения неоднозначности значений ключевых слов.
Текстовые кластеры способны понимать и группировать огромное количество неструктурированных данных. Хотя они менее точны, чем алгоритмы классификации, алгоритмы кластеризации реализуются быстрее, поскольку для обучения моделей не нужно помечать примеры. Это означает, что эти интеллектуальные алгоритмы извлекают информацию и делают прогнозы без использования обучающих данных, иначе называемых неконтролируемым машинным обучением.
Google — отличный пример того, как работает кластеризация. Когда вы ищете термин в Google, задумывались ли вы когда-нибудь о том, что для получения релевантных результатов требуется всего несколько секунд? Алгоритм Google разбивает неструктурированные данные с веб-страниц и группирует страницы в кластеры вокруг набора похожих слов или n-грамм (всех возможных комбинаций соседних слов или букв в тексте). Таким образом, страницы из кластера, которые содержат большее количество слов или n-грамм, релевантных поисковому запросу, будут отображаться первыми в результатах.
The post Методы анализа текста first appeared on Портал по разметке данных.
]]>The post Что такое анализ текста в машинном обучении? first appeared on Портал по разметке данных.
]]>Анализ текста — это метод машинного обучения, используемый для извлечения ценной информации из неструктурированных текстовых данных. С помощью данного метода можно работать с различными типами текстовой информации, такие как публикации в социальных сетях, сообщения и электронные письма.

Иногда анализ текста путают с текстовой аналитикой. Однако, это два разных понятия. Они описывают один и тот же процесс, но всё же есть различия:
Зачем нужен анализ текста?
Машинное обучение делает анализ текста намного быстрее и эффективнее, чем ручная обработка. Это позволяет сократить трудозатраты и ускорить обработку текстов без ущерба для качества. С помощью текстового анализа компании структурируют огромное количество информации: электронные письма, чаты, социальные сети, запросы в службу поддержки, документы и т. д.
В итоге это дает возможность предоставить пользователям более качественные услуги. Также, изучая отзывы клиентов, компания может узнать общественное мнение о своей продукции.
Проблемы анализа текста
Текстовый анализ также представляет некоторые проблемы:
Заключение
Анализ текста — это технология, которая используется в различных отраслях от маркетинга и продаж до робототехники. Специальные модели помогают научить машину работать с такими данными и делать из них ценные выводы. В целом, это может быть ценным методом для получения информации о вашем продукте или вашем бизнесе.
The post Что такое анализ текста в машинном обучении? first appeared on Портал по разметке данных.
]]>The post Кластеризация коротких текстов first appeared on Портал по разметке данных.
]]>На этом видео спикер рассказывает, как сделать кластеризацию коротких текстов, состоящих из одного или нескольких предложений.
Источник: YouTube-канал ODS AI Ru
The post Кластеризация коротких текстов first appeared on Портал по разметке данных.
]]>