nlp - 用于文本摘要的序列到序列模型的细节是什么？

Question

很清楚如何训练编码器-解码器模型进行翻译：每个源序列都有其对应的目标序列（翻译）。但在文本摘要的情况下，摘要比其文章短得多。根据Urvashi Khandelwal 的说法，神经文本摘要每个源句子都有其摘要（更短或更长）。但我几乎不相信存在任何这样的数据集，其中每个句子都有相应的摘要。那么，如果我是对的，训练sunch模型的可能方法是什么？否则是否有任何免费的文本摘要数据集？

score 0 · Accepted Answer

没错，很少有大型数据集是专门为训练文本摘要模型而创建的。人们倾向于使用其他现有数据并想方设法将其转化为汇总问题。您可以阅读其他文本摘要论文以了解它们的作用。

score 0 · Accepted Answer

研究倾向于使用数据集，例如

对亚马逊产品数据集等产品的评论
以标题作为摘要的新闻，如CNN/每日邮报数据集和新闻编辑室数据集

如果您需要了解更多关于如何有效使用这些模型的信息，本博客系列详细介绍了如何使用最新方法训练文本摘要模型，它还在线收集了多个实现并在 google colab 中实现，因此无论功率如何在您的计算机上，您可以随时在 google colab 上免费试用这些数据集

nlp - 用于文本摘要的序列到序列模型的细节是什么？

2 回答 2

Related

Reference