2

我正在构建一台 QA 机器。我有一个问题,一个问题可能有多个答案,并且答案位于上下文中的不同位置。例如:

问题:克里斯必须做什么?

上下文: ....克里斯必须洗碗....(更多文字)....克里斯必须做功课....

正确答案

  • 洗碗
  • 做作业

当我得到一个问题的答案时,我使用聚类算法去重复并获得“单独的”答案。因此,我需要一个包含一对 1 个问题的数据集 - 许多类似上面的答案来评估我的聚类算法和句子嵌入模型。

是否有任何公共数据集支持一对一个问题 - 多个正确答案(不重复)?我尝试了 MS MARCO,但这个数据集中的多个答案大部分都是重复的。

4

2 回答 2

2

我一直在寻找类似的问答技术或具有多个非冗余答案的数据集。

这是数据集:https ://github.com/mingzhu0527/MASHQA

和论文:https ://www.aclweb.org/anthology/2020.findings-emnlp.342.pdf [在此处输入链接描述] 1

然而,本文将 QA 的问题提出为一个句子分类任务,其任务实际上是判断上下文中的每个句子是否回答了查询。

现在,如果您的多个答案不跨越一个句子而只是短语,我不建议您这样做。

于 2021-04-04T10:19:00.090 回答
0

Muc2004 是一个文档级事件抽取数据集,对于每个事件角色,都有多个答案。例如,

问题:攻击的受害者是谁?

背景: ....因为卡洛斯瓦伦西亚加西亚的死刑判决是最后一晚......(更多文字)......玛丽亚埃琳娜迪亚兹被暗杀......

正确答案:

  • 卡洛斯·瓦伦西亚·加西亚
  • 玛丽亚埃琳娜迪亚兹
于 2021-01-06T03:36:26.483 回答