Качественный датасет состоит из 1500 русских вопросов разной сложности, их английских машинных переводов, SPARQL-запросов к Викиданным, справочных ответов, а также выборки троек Викиданных, содержащих сущности с русскими метками. Создание набора данных началось с большой коллекции пар вопросов и ответов из онлайн-викторин. Данные прошли автоматическую фильтрацию, связывание сущностей с помощью краудфандинга, автоматическую генерацию запросов SPARQL и их последующую внутреннюю проверку.

Получить более подробную информацию о проекте, а также скачать набор данных можно по ссылке.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *