0

在 allennlp 文本蕴涵演示网站上,示例中的假设和前提总是仅由一个句子组成。当假设和前提都包含多个句子时,allennlp 文本蕴涵模型是否有效?理论上可行吗?或者我可以在我自己的标记数据集上训练模型以使其适用于段落文本吗?

例如:

  • 前提:“每当杰克被问到他更喜欢妈妈还是爸爸时,他都不知道该如何回答。说实话,他不知道自己为什么要做出选择。”
  • 假设:“你更爱谁,妈妈还是爸爸?有些成年人喜欢用这个问题来逗孩子。对于杰克来说,他不喜欢这个问题。”

我阅读了论文decomposable attention model (Parikh et al, 2017)。本文不讨论这种情况。论文背后的想法是文本对齐。所以直觉上,我认为在段落文本上工作也应该是合理的。但我对此不是很有信心。

如果有人可以提供帮助,我将不胜感激。

4

1 回答 1

1

目前,文本蕴涵(例如 SNLI)的数据集包含单个句子作为前提和假设。但是,该模型仍然应该对段落文本“工作”(只要文本在最大标记限制内)。

也就是说,在这些数据集上训练的模型(例如 AllenNLP 演示中的模型)在此类输入上的性能可能会有所下降,因为它们没有看到更长的示例。从理论上讲,您绝对应该能够使用此类示例在您自己的标记数据集上训练/微调模型。人们会期望新模型的性能对于更长的输入会有所改善。

于 2021-01-08T18:51:17.517 回答