corpus - 为什么摩西使用 Europarl 的表现如此糟糕？

Question

我已经开始和摩西一起玩，并试图建立一个我认为是相当标准的基线系统。我基本上遵循了网站上描述的步骤，但news-commentary我没有使用Europarl v7 进行训练，使用 WMT 2006 开发集和原始 Europarl 通用测试。我的想法是做一些类似于Le Nagard & Koehn (2010) 的事情，他们在基线英语到法语系统中获得了 0.68 的 BLEU 分数。

总而言之，我的工作流程或多或少是这样的：

tokenizer.perl在一切
lowercase.perl（而不是truecase）
clean-corpus-n.perl
仅使用 Europarl v7 中的法语数据训练 IRSTLM 模型
train-model.perl完全按照描述
mert-moses.pl使用 WMT 2006 开发
如所述测试和测量性能

由此产生的 BLEU 分数是 0.26 ......这让我想到了两个问题：

这是这种基线系统的典型 BLEU 分数吗？我意识到 Europarl 是一个非常小的语料库，可以用来训练单语语言模型，尽管这就是他们在 Moses 网站上做事的方式。
对于刚从 SMT 和/或我可能陷入的摩西开始的人来说，是否有任何典型的陷阱？或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统，例如使用一些更大的、未公开的语料库来训练语言模型？

score 5 · Accepted Answer

只是首先直截了当地说：您所指的 .68 与 BLEU 无关。

我的想法是做一些类似于 Le Nagard & Koehn (2010) 的事情，他们在基线英语到法语系统中获得了 0.68 的 BLEU 分数。

您引用的文章仅指出 68% 的代词（使用共同参考解析）被正确翻译。它没有提到获得了 .68 BLEU 分数。事实上，没有给出分数，可能是因为论文提出的定性改进无法用统计显着性来衡量（如果你只改进少量单词，这种情况会发生很多）。因此，本文仅对代词进行人工评估：

更好的评估指标是正确翻译的代词的数量。这需要人工检查翻译结果。

这就是 .68 发挥作用的地方。

现在回答你关于 .26 的问题：

这是这种基线系统的典型 BLEU 分数吗？我意识到 Europarl 是一个非常小的语料库，可以用来训练单语语言模型，尽管这就是他们在 Moses 网站上做事的方式。

是的。您可以在此处找到 WMT 语言对的性能http://matrix.statmt.org/

对于刚从 SMT 和/或我可能陷入的摩西开始的人来说，是否有任何典型的陷阱？或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统，例如使用一些更大的、未公开的语料库来训练语言模型？

我假设你正确地训练了你的系统。关于“未公开的语料库”问题：学术界成员通常会为每个实验说明哪些数据集用于训练测试和调整，至少在同行评审的出版物中是这样。唯一的例外是 WMT 任务（参见例如http://www.statmt.org/wmt14/translation-task.html），如果系统参与不受约束的轨道，则可以使用私有语料库。但即便如此，人们也会提到他们使用了额外的数据。

corpus - 为什么摩西使用 Europarl 的表现如此糟糕？

1 回答 1

Related

Reference