使用哪些脚本(以及如何使用?)将新闻测试数据集从 wmt从.sgm 格式转换为未格式化的格式(如 europarl 数据集)?
例如,newstest 数据集下载于: http: //www.statmt.org/wmt15/test.tgz
包含(提取时)文件,例如 newstest2015-ende-ref.de.sgm
我如何使它类似于 europarl 数据集,其中每行代表一个没有格式的句子?
笔记:
我在 moses 目录(从 wmt 站点链接)中找到了一个名为wrap-xml.perl 的脚本。它在测试部分提到它用于转到 .sgm 格式,但脚本本身不包含任何文档(我在 perl 中一无所知)