Качественный датасет состоит из 1500 русских вопросов разной сложности, их английских машинных переводов, SPARQL-запросов к Викиданным, справочных ответов, а также выборки троек Викиданных, содержащих сущности с русскими метками. Создание набора данных началось с большой коллекции пар вопросов и ответов из онлайн-викторин. Данные прошли автоматическую фильтрацию, связывание сущностей с помощью краудфандинга, автоматическую генерацию запросов SPARQL и их последующую внутреннюю проверку.
Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.