1

我想将 Berkeley Aligner 用于我正在做的一些 MT 研究,因为显然它轻松击败了 GIZA++(在一些报告的结果中减少了 32% 的对齐误差)。大多数情况下,Berkeley Aligner“示例”目录中的输出看起来像 Moses 对 GIZA++ 输出文件所做的操作(即配对对齐的单词索引),但在某些配对之后有一些看起来很有趣的“-P”。我一辈子都找不到关于这些“-P”注释应该表示什么的任何文档(当然不在伯克利对齐器“文档”目录中)。

为了清楚起见,我将举一个说明性的例子。假设您有以下句子:“Jean plâit à Marie”和“Marie likes Jean”。法语是源语言,英语是目标语言。“Jean”(索引 0 和 2,分别)和“Marie”(索引 3 和 0,分别)在两个句子中对齐,“plâit”和“à”(法语索引 1 和 2,分别。 ) 与“like”(英文索引 1)对齐。在 Moses 后处理的 GIZA++ 输出中,这将由源-目标索引对列表表示:

0-2 1-1 2-1 3-0

Berkeley Aligner 生成的文件与此非常相似,但某些索引对上带有 -P(例如,您可能会看到类似 1-1-P 的东西)。

这到底是什么意思?我可以安全地删除这些 -P 注释并获得 GIZA++-via-Moses 样式对齐,还是我应该做更多的事情(例如,将它们乘以一系列对齐的索引对,或者你有什么)?

4

1 回答 1

1

我对此了解不多,但我对代码进行了搜索:

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner .googlecode.com&sbtn=Search

    /**
     * Writes the sure and proposed alignments in a modified
     * version of the Pharaoh format.
     *
     * For example, if we have 7 sure alignments and two possibles, we get:
     *
     * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P
     *
     * here, the -P indicates possible alignments.
     */
    public String outputHard() {
            return dumpModifiedPharaoh(false);
    }

似乎这些是“可能的”对齐方式。这是因为您将代码设置为以 Pharaoh(?) 格式输出“硬”对齐。似乎您可以决定使用或转储 -P 对齐,或切换到“软”输出,这为每对提供强度,然后扫描阈值参数。

于 2010-11-18T18:24:26.850 回答