我开始研究对搜索查询进行一些机器翻译,并且一直在尝试考虑不同的方法来评估我的翻译系统在迭代之间和与其他系统的比较。首先想到的是从一群人那里得到一组来自 mturk 的搜索词的翻译,并说每个都是有效的,或者类似的东西,但这会很昂贵,并且可能容易让人输入错误的翻译.
现在我正在尝试考虑更便宜或更好的东西,我想我会向 StackOverflow 询问想法,以防已经有一些可用的标准,或者之前有人试图找到其中之一。例如,有谁知道谷歌翻译如何评价他们系统的各种迭代?
我开始研究对搜索查询进行一些机器翻译,并且一直在尝试考虑不同的方法来评估我的翻译系统在迭代之间和与其他系统的比较。首先想到的是从一群人那里得到一组来自 mturk 的搜索词的翻译,并说每个都是有效的,或者类似的东西,但这会很昂贵,并且可能容易让人输入错误的翻译.
现在我正在尝试考虑更便宜或更好的东西,我想我会向 StackOverflow 询问想法,以防已经有一些可用的标准,或者之前有人试图找到其中之一。例如,有谁知道谷歌翻译如何评价他们系统的各种迭代?
这里有一些信息可能有用,因为它提供了 BLEU 评分技术的基本解释,该技术经常被开发人员用来衡量 MT 系统的质量。
第一个链接提供了 BLEU 的基本概述,第二个链接指出了 BLEU 在其局限性方面的一些问题。
http://kv-emptypages.blogspot.com/2010/03/need-for-automated-quality-measurement.html
和
http://kv-emptypages.blogspot.com/2010/03/problems-with-bleu-and-new-translation.html
在此链接上还有一些关于如何开发有用的测试集的非常具体的实用建议:AsiaOnline.Net 网站在 11 月时事通讯中。由于限制为两个,我无法放入此链接。
我建议完善你的问题。机器翻译有很多指标,这取决于您要做什么。在您的情况下,我认为问题可以简单地表述为:“给定语言 L1 的一组查询,在网络搜索上下文中,我如何衡量 L2 的翻译质量?”
这基本上是跨语言信息检索。
这里要意识到的重要一点是,您实际上并不关心为用户提供查询的翻译:您希望让他们得到他们从查询的良好翻译中获得的结果。
为此,您可以简单地衡量结果列表在黄金翻译和系统结果之间的差异。您可以使用许多等级相关性、集合重叠等指标。关键是您不需要判断每一个翻译,而只需评估自动翻译是否为您提供与人工翻译相同的结果。
至于提出糟糕翻译的人,您可以评估假定的黄金标准候选人是否有相似的结果列表(即,给定 3 个手动翻译,他们的结果是否一致?如果不是,则使用最重叠的 2 个)。如果是这样,那么从 IR 的角度来看,这些实际上是同义词。
在我们的MT 评估中,我们使用 hLEPOR 分数(详见幻灯片)