我正在构建一台 QA 机器。我有一个问题,一个问题可能有多个答案,并且答案位于上下文中的不同位置。例如:
问题:克里斯必须做什么?
上下文: ....克里斯必须洗碗....(更多文字)....克里斯必须做功课....
正确答案:
- 洗碗
- 做作业
当我得到一个问题的答案时,我使用聚类算法去重复并获得“单独的”答案。因此,我需要一个包含一对 1 个问题的数据集 - 许多类似上面的答案来评估我的聚类算法和句子嵌入模型。
是否有任何公共数据集支持一对一个问题 - 多个正确答案(不重复)?我尝试了 MS MARCO,但这个数据集中的多个答案大部分都是重复的。