问题标签 [bleu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
11 浏览

lstm - 批量训练降低了我的语言模型指标

我正在训练一个基于堆叠 LSTM 的图像字幕生成器。早些时候,当我不使用批量训练时,BLEU 指标达到了 0.57 的高点,但是当我使用批量训练时,我使用的批量越大,我的 BLEU 指标就越低。它减少到 0.43。可能的原因是什么?此外,我检查了不同模型的 bleu 分数,随着 epoch 数量的增加,我的 bleu 分数降低。谢谢

0 投票
0 回答
209 浏览

nlp - BLEU 分值高于 1

我一直在研究 BLEU 分数是如何工作的。我从在线视频+原始研究论文中了解到,BLEU 得分值应该在 0-1 范围内。

然后,当我开始看一些研究论文时,我发现 BLEU 值(几乎)总是高于 1!例如,看看这里:

我错过了什么吗?

另一个小点:下表中的标题是什么意思?BLEU 分数是使用 unigrams 计算的,然后是 unigrams 和 bigrams(平均)等?还是每个 ngrams 大小都是独立计算的?

在此处输入图像描述

0 投票
1 回答
523 浏览

python - 尽可能快地计算 BLEU 和 Rouge 分数

我有大约 200 个候选句子,对于每个候选句子,我想通过将每个句子与数千个参考句子进行比较来衡量 bleu 分数。这些参考对所有候选人都是相同的。这是我现在的做法:

reference包含我想要比较每个句子的整个语料库,并且是sent我的句子(候选人)。不幸的是,这需要很长时间,并且考虑到我的代码的实验性质,我不能等那么久才能得到结果。有没有其他方法(例如使用正则表达式)可以更快地获得这些分数?我对 Rouge 也有这个问题,因此也非常感谢任何建议!

0 投票
0 回答
87 浏览

python - 如何计算多句摘要的 ROUGE?

我正在尝试在 TAC2010 数据集上运行几个汇总指标(ROUGE、METEOR、BLEU、CIDEr)。我使用了一个名为 nlg-eval ( https://github.com/Maluuba/nlg-eval ) 的 python 包来执行此操作。我尝试了 github 上列出的两个 API:functional API: for the entire corpus

功能 API:仅用于一个句子(我将所有句子堆叠成一个句子用于假设摘要及其每四个参考)

但是,我从 nlg-eval 获得的 ROUGE-L 分数与数据集报告的官方 ROUGE-L 分数不一致。

所以我的问题是

  1. 多句摘要计算ROUGE的正确方法是什么
  2. 如何在 TAC2010 上进行 nlg-eval 工作
0 投票
1 回答
71 浏览

windows-7 - 我将两个相同的句子与 BLEU NLTK 进行比较,但没有得到 1.0。为什么?

我正在尝试使用 NLTK 的 BLEU 分数来评估机器翻译的质量。我想用两个相同的句子检查这段代码,这里我使用 method1 作为平滑函数,因为我正在比较两个句子而不是语料库。我设置了 4 克和重量 0.25 (1/4)。但结果,我得到 0.0088308。我究竟做错了什么?两个相同的句子应该得到 1.0 分。我正在 PyCharm 中使用 Python 3、Windows 7 进行编码。

我的代码:

我的结果:

0.008830895300928163

进程以退出代码 0 结束

0 投票
0 回答
56 浏览

python-3.x - 使用 NLTK 的句子级别 Bleu 分数

我正在点击此链接以查找句子级别bleu score

NLTK:语料库级别的 BLEU 与句子级别的 BLEU 分数

当我运行这个例子时:

输出:

8.987727354491445e-155

输出是0

警告:

如何为具有 的句子运行相同的功能n-gram for n<4

还有我可以在里面传递什么参数nltk.translate.bleu_score.sentence_bleu()

0 投票
0 回答
52 浏览

python - 编译 TensorFlow 模型时定义 BLEU

在为我的 NLP 使用编译 Tensorflow/Keras 模型时,我已经成功定义了自定义混淆矩阵。但是,我无法在训练和评估模型时实现 BLEU 分数。

NLTK 不再支持这个功能了吗?

0 投票
0 回答
22 浏览

python - 在 nltk corpus_bleu 方法中使用的最佳平滑函数

我正在尝试实现一个图像字幕模型(CNN + LSTM)并作为验证指标,我使用的是 BLEU 分数。更准确地说,是 nltk 的 corpus_bleu 实现。

我尝试使用不同的 SmoothingFunctions 并且我得到了相同候选和参考的不同值。

SmoothingFunction().method1 -> 0025682587115391834

SmoothingFunction().method2 -> 0.01435390900932359

SmoothingFunction().method3 -> 0.005106152442970232

我应该使用“默认”方法还是取决于任务本身?

提前致谢