Набор данных состоит примерно из 20 000 документов, разделенных равномерно по 20 различным группам новостей. Коллекция стала популярным набором данных для экспериментов с текстовыми приложениями методов машинного обучения, таких как классификация и кластеризация текста.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.