Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений.
Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке.
Все текстовые примеры были собраны в соответствии с методикой сбора исходного набора данных. Ответы на вопросы были получены с помощью асессоров, а также тексты были получены автоматически с помощью систем ODQA в Википедии.
Получить более подробную информацию о проекте, а также скачать датасет можно по ссылке.