0

我正在尝试使用 Moses 构建泰米尔语-英语翻译系统。https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库数据源。dict 文件长约 70k 行,其他文件在 2-3k 范围内,训练文件长约 30k。如果有人暗示以下哪些是训练和调整的更好选择,会有所帮助?

目前,我使用训练文件进行训练,使用测试文件进行调优。有更好的组合吗?

4

1 回答 1

0

调整数据的大小通常比训练数据小得多。我建议你将你拥有的数据合并到一个语料库中,然后从这个语料库中提取大约 1000 个句子进行调优,也许 3000 个句子用于开发/测试。

于 2014-08-28T12:57:41.177 回答