Датасаентист Сбербанка рассказывает о сборе текстовых данных и построении корпусов. Корпус, с точки зрения машинного обучения, — это большой датасет. Это собранные тексты и некая разметка к ним. Хорошо подобранный корпус с достаточно низкой частотой слов способен решить большое количество проблем архитектуры.

Спикер делится своим опытом создания корпусов, рассказывает о закрытых и открытых источниках и как рассчитывать объём данных.

Источник: YouTube-канал ODS AI Global

Добавить комментарий

Ваш адрес email не будет опубликован.