nlp - 有没有关于 giza++ 的教程？

Question

其“自述文件”文件中的 URL 无效（http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html）。有没有关于 giza++ 的好教程？或者是否有一些具有完整文档的替代方案？

score 41 · Accepted Answer

以下内容摘自我为一堂课准备的教程。（注意：这假设您已经在 *nix 系统上成功安装了 GIZA++-v2。）

从包含已标记化的平行句子的两个数据文件开始，每行一个句子。例如，一对平行的英法文文件可能如下所示。

样品 1 -train.en

I gave him the book . 
He read the book . 
He loved the book .

样品 2 -train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

运行这些文件plain2snt.out以获得目标和源词汇文件 ( *.vcb) 以及句子对文件 ( *.snt)。

从 GIZA++ 目录，运行：

./plain2snt.out TEXT1 TEXT2

其中TEXT1和TEXT2是步骤 1 中描述的数据文件。

TEXT1这会在与and相同的目录中生成四个文件TEXT2（假设它们在同一目录中）：

TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb

词汇文件包含文本中每个单词的唯一（整数）ID（注意：未标记化/lemmatized）、单词/字符串以及该字符串出现的次数。它们由一个空格字符分隔。

句子文件包含数字。对于每个句子对，有三行：第一行是该句子对在语料库中出现的次数的计数，第二和第三行是对应于单词条目的一串（空格分隔）数字词汇文件。根据文件的命名约定*.snt，第一个文件被假定为源文件，第二个文件被假定为目标语言。例如，在文件TEXT1_TEXT2.snt中，第一行将是第一个句子对在语料库中出现的次数的计数，第二行将是与TEXT1.vcb文件中的单词对应的一串数字，第三行将是与文件中的单词对应的一串数字TEXT2.vcb。

现在TEXT1.vcb,TEXT2.vcb和两个*.snt文件中的任何一个都可以用作 GIZA++ 的输入来生成对齐。

例如：

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

但请注意，当我尝试运行它时，我必须重命名TEXT1_TEXT2.snt为名称中不带下划线的名称，以获得任何正确的输出。

score 3 · Accepted Answer

3

这个 Powerpoint 教程对我有用：http ://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

于 2013-07-05T12:36:05.020 回答

score 3 · Accepted Answer

这个很有帮助： http: //fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/

IIT-B 学者对 GIZA++ 和 MOSES 的设置和使用做了很好的详细介绍。

其中一些是： http ://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf

http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf

http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf

score 2 · Accepted Answer

这个也许？

http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1

完整来源：http ://code.google.com/p/giza-pp/issues/detail?id=8

score 0 · Accepted Answer

这里有关于如何格式化输入文件以及如何运行 GIZA++ 的补充说明：

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt

nlp - 有没有关于 giza++ 的教程？

5 回答 5

Related

Reference