我有一个数据集(大约 3K 到 4K)excel 文件,每个文件都有大约 12K 条记录,这些记录是常见问题解答、电子邮件对话、博客评论、聊天等的组合。
最好的部分是,它有两列,一列用于Questions,另一列用于Answers。
来自 excel 的一个示例记录 - (注意 -无法公开客户数据,因此我自己只创建一个记录来解释场景)。
例如。示例问题 -What are IIT colleges in India?
示例答案 -The Indian Institutes of Technology (IITs) are autonomous public institutes of higher education, located in India. They are governed by the Institutes of Technology Act, 1961 which has declared them as institutions of national importance and lays down their powers, duties, and framework for governance. The Institutes of Technology Act, 1961 lists twenty-three institutes.Each IIT is autonomous, linked to the others through a common council (IIT Council), which oversees their administration. The Minister of Human Resource Development is the ex officio Chairperson of the IIT Council. As of 2018, the total number of seats for undergraduate programs in all IITs is 11,279.
客户的要求是——
从(以上示例答案)段落中生成尽可能多的简单问题及其答案,并将其附加到同一个 Excel 中。
(然后,他将通过将其输入到生成聊天机器人故事的某些工具中来进一步处理每个 excel)。
例如。
- IIT 是自主的吗?(答案
Yes
:) - 什么管理 IIT?(答案
The Institutes of Technology Act, 1961
:) - IIT位于哪个国家/地区?(答案
India
:) - 1961 年《技术学院法》列出了多少个机构?(答案:)
twenty-three
等。
答案生成我可以使用 AllenAI 来完成,但不确定如何生成问题?我尝试了一个repo,但它看起来不完整,需要更多的努力,因为我是 NLP 或 ML 的新手,所以不知道如何进行这些更改。
在问答中生成问题有什么帮助吗?
我可以在现有语言模型(例如 spacy 的模型)之上创建任何模型来生成实体然后生成问题吗?