问题标签 [bleu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 子词 NMT 的 BLEU 分数应该在子词上计算还是应该先加入?
这在我读过的论文中并不太清楚。当一个模型在双语语料库上进行训练时,例如通过字节对编码,计算子词输出或重新加入子词后完整词的 BLEU 分数是否标准?
python - 无法从“bleu”导入名称“evaluate”
我正在尝试这样做
from bleu import evaluate
但我收到以下错误:
ImportError: cannot import name 'evaluate' from 'bleu' (/opt/conda/lib/python3.7/site-packages/bleu/init .py )
版本我正在使用 pip install bleu==0.1.0
我正在尝试运行具有此功能的代码,所以请帮忙
google-cloud-platform - GCP 零 BLEU 分数
对于训练有素的意大利语翻译模型 gcp 不计算 BLEU 分数是否正常?
bleu - BLEU - 低阶错误 N-gram 重叠
我运行了下面的代码
这是错误
该假设包含 0 个 3-gram 重叠计数。因此,BLEU 得分评估为 0,与它包含多少低阶 N-gram 重叠无关。考虑使用较低的 n-gram 顺序或使用 SmoothingFunction() warnings.warn(_msg)
有人可以告诉我这里有什么问题吗?我在谷歌上找不到解决方案。谢谢你。
最好的,DD
metrics - 两个数据子集的 BLEU 分数平均值与总体分数不同
为了评估序列生成模型,我使用的是 BLEU1:BLEU4。我将测试集分成两组,分别计算每组以及整个测试集的分数。令人惊讶的是,我从整个测试集得到的结果并不是我从每个集得到的结果的加权平均值。例如,考虑我在一组和其中的两个子集上获得的 BLEU4 分数:
set1, 866 个元素:0.0001529267908
set2, 1010 个元素:0.1625387989
<set1,set2>,1876 个元素:0.3063472152
我应该如何聚合两个子集的结果以获得整体结果?
注意:我知道 set1 中的所有元素都短于 4 个标记,这就是 BLEU4 几乎为零的原因。
python - 了解 ROUGE 与 BLEU
我正在研究衡量文本摘要质量的指标。为此,我找到了这个 SO answer,其中指出:
Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)有多少出现在人类参考摘要中。
Rouge 测量召回:人类参考摘要中的单词(和/或 n-gram)在机器生成的摘要中出现了多少。
虽然在SE的这个答案中我发现了这个:
ROUGE-n recall=40% 表示参考摘要中 40% 的 n-gram 也出现在生成的摘要中。
ROUGE-n 精度=40% 意味着生成的摘要中 40% 的 n-gram 也出现在参考摘要中。
ROUGE-n F1-score=40% 更难解释,就像任何 F1-score 一样。
这是矛盾的。听起来Rouge-Precision等于BLEU而Rouge-Recall等于SO answer中的陈述。Rouge-Precision 是否与实现 BLEU 的 BLEU 相同?
论文中还提到:
很明显,ROUGE-N 是一个与召回相关的度量,因为等式的分母是参考摘要侧出现的 n-gram 数量的总和。一种密切相关的度量,BLEU,用于机器翻译的自动评估,是一种基于精度的度量。
我不明白这一点,因为(至少)胭脂返回精度和召回值。有人可以澄清一下吗?谢谢!
nltk - NLTK 的 BLEU 分数和 SacreBLEU 有什么区别?
我很好奇是否有人熟悉使用NLTK 的 BLEU 分数计算和SacreBLEU 库之间的区别。
特别是,我使用了两个库的句子 BLEU 分数,在整个数据集上取平均值。两者给出不同的结果:
正如您所看到的,有很多令人困惑的不一致之处正在发生。我的 BLEU 分数不可能是 67.8%,但也不应该是 0%(有很多重叠的 n-gram,比如“the”)。
如果有人能对此有所了解,我将不胜感激。谢谢。
nltk - 为什么 Sacrebleu 对短句返回零 BLEU 分数?
为什么scarebleu
句子需要以点结尾?如果我删除点,则该值为零。
这将返回以下内容:
当我删除结束点时。
它使用 scarebleu 打印零,这又很奇怪!:
python - 如何使用 BLEU 将假设与参考相匹配?
以下sys
包含happy
的是第二个参考的完全匹配,但为什么 bleu 分数仍然为零?
它打印
如果 BLEU 不是一个很好的指标,我会寻找一个指标,它可以通过任何参考对假设中的匹配或子字符串进行评分。我认为 BLEU 分数是出于同样的目的!
nlp - 如何在没有简洁惩罚的情况下计算 BLEU 分数
代码:
如何忽略此处计算的 BLEU 分数的简洁惩罚?