3

我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。

我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。

为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。

然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。

如何分割和对齐语料库的句子?

4

1 回答 1

0

您在问题中使用了 Giza++ 标签:您是否考虑过使用那里的对齐工具?我知道很多人使用的另一个选项是Moses,它是一个功能齐全的统计 MT 包,但我相信如果这真的是你想要的,你可以单独调用对齐模型。

于 2013-02-06T09:47:09.987 回答