Это набор данных для двоичной классификации тональности. Состоит из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Также есть дополнительные немаркированные данные. Предоставляются форматы исходного текста и уже обработанного пакета слов.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.