Это набор данных для двоичной классификации тональности. Состоит из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Также есть дополнительные немаркированные данные. Предоставляются форматы исходного текста и уже обработанного пакета слов.

Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *