我想将 Berkeley Aligner 用于我正在做的一些 MT 研究,因为显然它轻松击败了 GIZA++(在一些报告的结果中减少了 32% 的对齐误差)。大多数情况下,Berkeley Aligner“示例”目录中的输出看起来像 Moses 对 GIZA++ 输出文件所做的操作(即配对对齐的单词索引),但在某些配对之后有一些看起来很有趣的“-P”。我一辈子都找不到关于这些“-P”注释应该表示什么的任何文档(当然不在伯克利对齐器“文档”目录中)。
为了清楚起见,我将举一个说明性的例子。假设您有以下句子:“Jean plâit à Marie”和“Marie likes Jean”。法语是源语言,英语是目标语言。“Jean”(索引 0 和 2,分别)和“Marie”(索引 3 和 0,分别)在两个句子中对齐,“plâit”和“à”(法语索引 1 和 2,分别。 ) 与“like”(英文索引 1)对齐。在 Moses 后处理的 GIZA++ 输出中,这将由源-目标索引对列表表示:
0-2 1-1 2-1 3-0
Berkeley Aligner 生成的文件与此非常相似,但某些索引对上带有 -P(例如,您可能会看到类似 1-1-P 的东西)。
这到底是什么意思?我可以安全地删除这些 -P 注释并获得 GIZA++-via-Moses 样式对齐,还是我应该做更多的事情(例如,将它们乘以一系列对齐的索引对,或者你有什么)?