Датасаентист Сбербанка рассказывает о сборе текстовых данных и построении корпусов. Корпус, с точки зрения машинного обучения, – это большой датасет. Это собранные тексты и некая разметка к ним. Хорошо подобранный корпус с достаточно низкой частотой слов способен решить большое количество проблем архитектуры.
Спикер делится своим опытом создания корпусов, рассказывает о закрытых и открытых источниках и как рассчитывать объём данных.
Источник: YouTube-канал ODS AI Global