1

使用哪些脚本(以及如何使用?)将新闻测试数据集从 wmt.sgm 格式转换为未格式化的格式(如 europarl 数据集)?

例如,newstest 数据集下载于: http: //www.statmt.org/wmt15/test.tgz

包含(提取时)文件,例如 newstest2015-ende-ref.de.sgm

我如何使它类似于 europarl 数据集,其中每行代表一个没有格式的句子?

笔记:

我在 moses 目录(从 wmt 站点链接)中找到了一个名为wrap-xml.perl 的脚本。它在测试部分提到它用于转到 .sgm 格式,但脚本本身不包含任何文档(我在 perl 中一无所知)

4

0 回答 0