我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。
我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。
为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。
然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。
如何分割和对齐语料库的句子?
我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。
我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。
为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。
然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。
如何分割和对齐语料库的句子?
您在问题中使用了 Giza++ 标签:您是否考虑过使用那里的对齐工具?我知道很多人使用的另一个选项是Moses,它是一个功能齐全的统计 MT 包,但我相信如果这真的是你想要的,你可以单独调用对齐模型。