alignment - 嘈杂文本语料库中的句子分割和对齐

Question

我有一个平行语料库，其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。

我的语料库是一个嘈杂的语料库，它的段落相互翻译不完整（即阿拉伯语段落的部分没有翻译成波斯语，标点符号也不匹配）。

为了将段落划分为句子，我使用了标点符号，但句子数量不匹配。

然后，我使用Microsoft Aligner 对齐句子，但结果确实是错误的。

如何分割和对齐语料库的句子？

score 0 · Accepted Answer

您在问题中使用了 Giza++ 标签：您是否考虑过使用那里的对齐工具？我知道很多人使用的另一个选项是Moses，它是一个功能齐全的统计 MT 包，但我相信如果这真的是你想要的，你可以单独调用对齐模型。

1 回答 1