问题标签 [bleu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
414 浏览

perl - 如何在 Asiya 机器翻译评估工具包中使用基本 BLEU 分数?

Asiya 是机器翻译评估工具包,用于对机器翻译输出进行评分 ( http://asiya.lsi.upc.edu/ )。它主要是用 Perl 编写的。

如何使用 Asiya 执行 BLEU 指标?

我关注了youtube介绍视频:https ://www.youtube.com/watch?v=rA5De9Z4uWI

并创建了一个配置文件(Asiya.config):

我的机器翻译输出文件在corpus.tok/hyp.tok.ja,源文件在corpus.tok/test.tok.en,参考文件(正确翻译)在corpus.tok/test.tok.ja. 它们是标记化的纯文本文件,每一行都是一个句子。

当我跑的时候:

我收到了这个错误:

工具目录确实作为我运行命令的当前目录中的子目录存在。什么地方出了错?是否有可以为 Asiya 工具目录添加的参数?

如何使用 Asiya 进行 BLEU 评估?

如果我不使用 Asiya,我还能如何获得每个句子的 BLEU 分数和机器翻译输出的系统 BLEU 分数?

(有关http://nlp.lsi.upc.edu/redmine/boards/11/topics/138的更多详细信息)

0 投票
1 回答
580 浏览

corpus - 为什么摩西使用 Europarl 的表现如此糟糕?

我已经开始和摩西一起玩,并试图建立一个我认为是相当标准的基线系统。我基本上遵循了网站上描述的步骤,但news-commentary我没有使用Europarl v7 进行训练,使用 WMT 2006 开发集和原始 Europarl 通用测试。我的想法是做一些类似于Le Nagard & Koehn (2010) 的事情,他们在基线英语到法语系统中获得了 0.68 的 BLEU 分数。

总而言之,我的工作流程或多或少是这样的:

  1. tokenizer.perl在一切
  2. lowercase.perl(而不是truecase
  3. clean-corpus-n.perl
  4. 仅使用 Europarl v7 中的法语数据训练 IRSTLM 模型
  5. train-model.perl完全按照描述
  6. mert-moses.pl使用 WMT 2006 开发
  7. 如所述测试和测量性能

由此产生的 BLEU 分数是 0.26 ......这让我想到了两个问题:

  • 这是这种基线系统的典型 BLEU 分数吗?我意识到 Europarl 是一个非常小的语料库,可以用来训练单语语言模型,尽管这就是他们在 Moses 网站上做事的方式。
  • 对于刚从 SMT 和/或我可能陷入的摩西开始的人来说,是否有任何典型的陷阱?或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统,例如使用一些更大的、未公开的语料库来训练语言模型?
0 投票
1 回答
135 浏览

python-2.7 - Pyter 在编写为 Python 程序时无法工作

我正在使用 pyter API 来查找两个单词之间的翻译错误率(TER)。Pyter 通常在终端中工作,但是当我在 Python 代码中使用它时,它不起作用。通常,它通过编写 pyter.ter(w1,w2) 来工作,但现在它说 pyter 模块没有属性“ter”。

0 投票
1 回答
2336 浏览

python - 为什么 nltk.align.bleu_score.bleu 给出错误?

我在计算中文句子的 BLEU 分数时发现了零值。

候选句子是cand 两个引用是r1andr2

代码为:

但我得到了一个结果0。当我进入这个bleu过程时,我发现

上面的程序转到except ValueError. 但是,我不知道为什么这会返回错误。如果我尝试其他句子,我可以获得一个非零值。

0 投票
3 回答
26427 浏览

nlp - 文本摘要评估 - BLEU vs ROUGE

使用两个不同的摘要系统(sys1 和 sys2)和相同的参考摘要的结果,我用 BLEU 和 ROUGE 对它们进行了评估。问题是:sys1 的所有 ROUGE 分数都高于 sys2(ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-SU4,...),但 sys1 的 BLEU 分数低于比 sys2 的 BLEU 分数(相当多)。

所以我的问题是:ROUGE 和 BLEU 都是基于 n-gram 来衡量系统摘要和人类摘要之间的相似性。那么为什么会有这样的评估结果差异呢?ROUGE vs BLEU 解释这个问题的主要区别是什么?

0 投票
2 回答
21948 浏览

python - NLTK:语料库级别的 BLEU 与句子级别的 BLEU 分数

我在 python 中导入了 nltk 来计算 Ubuntu 上的 BLEU 分数。我了解句子级 BLEU 评分的工作原理,但我不了解语料库级 BLEU 评分的工作原理。

以下是我的语料库级 BLEU 分数代码:

出于某种原因,上述代码的 bleu 分数为 0。我期望语料库级别的 BLEU 分数至少为 0.5。

这是我的句子级 BLEU 分数代码

这里的句子级 BLEU 分数是我期望的 0.71,考虑到简洁性惩罚和缺失的单词“a”。但是,我不明白语料库级别的 BLEU 分数是如何工作的。

任何帮助,将不胜感激。

0 投票
0 回答
601 浏览

python - 使用 NLTK 计算 BLEU 时出现“ZeroDivisionError: Fraction(0, 0)”

我正在尝试使用 NLTK 计算两个字符串之间的 BLEU 分数,如下所示:

运行它会导致以下错误:

如果我替换hypothesis = ['Dee']hypothesis = ['Deee'],错误消息就会消失。为什么?

我的系统:

  • NLTK 版本:3.2.1。
  • 蟒蛇 2.7.11 x64
0 投票
0 回答
678 浏览

python - 从句子级分数导出语料库的 BLEU 分数

我想计算语料库的 BLEU 分数。

由于一些问题,我不得不使用句子级别的 BLEU 分数,而不是语料库级别的 BLEU。我已经nltk.translate.bleu_score.sentence_bleu在 python 中使用来计算每个句子的 BLEU 分数,现在我想为整个语料库分配一个分数。

我应该如何对部分分数进行积分?我应该使用几何平均值还是其他什么?

任何帮助,将不胜感激。

0 投票
2 回答
6386 浏览

machine-learning - BLEU 分数的变化

我对机器翻译的 BLUE Score 计算有一些疑问。我意识到他们可能对 BLEU 有不同的指标。我发现代码报告了 BLEU 的五个值,即 BLEU-1、BLEU-2、BLEU-3、BLEU-4 和最后的 BLEU,这似乎是前四个 BLEU 的指数平均值。我仍然不清楚它们之间的区别是什么。你有什么想法?谢谢

Ps 一开始我以为这个问题更多是理论性的内容,贴在meta stackexange上。版主已关闭并将其评论为 stackoverflow 类型的问题。所以请不要再惩罚我了。=)

0 投票
1 回答
1253 浏览

machine-learning - What is the difference between mteval-v13a.pl and NLTK BLEU?

There is an implementation of BLEU score in Python NLTK, nltk.translate.bleu_score.corpus_bleu

But I am not sure if it is the same as the mtevalv13a.pl script.

What is the difference between them?