machine-translation - giza++ 短语表中的计数是什么意思？

Question

我一直在官方网站（和 pdf 手册）中搜索 giza++ 短语表输出中数字的含义：http: //www.statmt.org/moses/? n=FactoredTraining.ScorePhrases

这就是我想出的。

假设这是短语表中的一行

načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1

这意味着：

e = "načiniti na koji"
f = "way in which"

count(e) = 12
count(f) = 3
count(e, f) = 1

p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333

这些都很有道理。

然而，如果我使用文本编辑器进行文本搜索，我会得到：

count("načiniti na koji") = 4
count("way in which") = 9

即，完全不同的数字。

另一个奇怪的地方是：

osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1

所以，考虑到官网的解释，

count("the) = 1,

和

count("osnivanje i") = 8059.

一种解释可能是它可能正好相反。

但是，实际计数（“the”）是 21466。

是否有其他一些教程/手册可以更好地阐明 giza++ 输出文件的内容？

score 3 · Accepted Answer

所以，我想它应该是这样的：

吉萨贯穿平行语料库
每当两个短语对齐时，它们就会被刷新到文本文件中，我们将其命名为 f_phrases

符号可能是：

e - 外国吉萨会员

f - 英语吉萨会员

完成后，f_phrases 进行两种排序，这样我们就得到了两个表文件

extract.o.sorted

对进行排序，以便某个外来短语 (e) 的所有英文翻译彼此相邻，例如

analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      and
analiza i      evaluation and
analiza i      the analysis and
analiza i      through evaluation and

因此我们得出结论

count(e) = count("analiza i") = 17

然后，对对进行排序，以便某个母语短语 (f) 的所有外语翻译彼此相邻，例如

extract.inv.sorted

analysis and              Analysis and
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i
analysis and              analiza i

我们看到了count(f) = count("analysis and") = 14

考虑到它是同一张表，只是以其他方式排序，我们看到count("analysis and", "analiza i") = count("analiza i", "analysis and") = 17

生成的短语表如下所示：

analiza i|||analysis and|||     14      |||             17|||               13

e       ||| f        ||| count(f) ||| count(e)   ||| count(e, f) = count(f, e)

当计算条件概率时，使用相反的顺序，因为顺序在短语表中：

p(e|f) = p(e, f) / p(f) phrase translation probability 
p(f|e) = p(f, e) / p(e) inverse phrase translation probability

machine-translation - giza++ 短语表中的计数是什么意思？

1 回答 1

Related

Reference