dataset - 以下哪一个是训练和调整摩西的更好数据集？

Question

我正在尝试使用 Moses 构建泰米尔语-英语翻译系统。https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库数据源。dict 文件长约 70k 行，其他文件在 2-3k 范围内，训练文件长约 30k。如果有人暗示以下哪些是训练和调整的更好选择，会有所帮助？

目前，我使用训练文件进行训练，使用测试文件进行调优。有更好的组合吗？

score 0 · Accepted Answer

调整数据的大小通常比训练数据小得多。我建议你将你拥有的数据合并到一个语料库中，然后从这个语料库中提取大约 1000 个句子进行调优，也许 3000 个句子用于开发/测试。

dataset - 以下哪一个是训练和调整摩西的更好数据集？

1 回答 1

Related

Reference