python-3.x - 如何为 textsum 准备测试数据？

Question

我已经能够成功运行 TextSum 的预训练模型（ Tensorflow 1.2.1）。输出包含 CNN 和 Dailymail 文章的摘要（在测试之前被分块成 bin 格式）。

我还能够为 CNN/Dailymail 文章和词汇文件创建上述 bin 格式的测试数据（按照此处的说明）。但是，我无法创建自己的测试数据来检查摘要的好坏。我尝试修改make_datafiles.py代码以删除已编码的值。我能够创建标记化文件，但下一步似乎失败了。如果有人可以帮助我了解url_lists其用途，那就太好了。根据 github 自述文件 -

"对于每个 url 列表 all_train.txt、all_val.txt 和 all_test.txt，从文件中读取相应的标记化故事、小写并写入序列化二进制文件 train.bin、val.bin 和 test.bin。这些将是放在新创建的finished_files目录下。 ”

如何映射诸如http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/之类的 URL到我的数据文件夹中的相应故事？如果有人在这方面取得了成功，请让我知道如何去做。提前致谢！

score 0 · Accepted Answer

更新：我能够弄清楚如何使用自己的数据来创建用于测试的 bin 文件（并url_lists完全避免使用）。

这会很有帮助 - https://github.com/dondon2475848/make_datafiles_for_pgn

一旦我弄清楚如何为此修复 ROGUE 评分，将更新答案。

python-3.x - 如何为 textsum 准备测试数据？

1 回答 1

Related

Reference