Набор данных состоит примерно из 20 000 документов, разделенных равномерно по 20 различным группам новостей. Коллекция стала популярным набором данных для экспериментов с текстовыми приложениями методов машинного обучения, таких как классификация и кластеризация текста.

Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *