其“自述文件”文件中的 URL 无效(http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html)。有没有关于 giza++ 的好教程?或者是否有一些具有完整文档的替代方案?
5 回答
以下内容摘自我为一堂课准备的教程。(注意:这假设您已经在 *nix 系统上成功安装了 GIZA++-v2。)
- 从包含已标记化的平行句子的两个数据文件开始,每行一个句子。例如,一对平行的英法文文件可能如下所示。
样品 1 -train.en
I gave him the book .
He read the book .
He loved the book .
样品 2 -train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
- 运行这些文件
plain2snt.out
以获得目标和源词汇文件 (*.vcb
) 以及句子对文件 (*.snt
)。
从 GIZA++ 目录,运行:
./plain2snt.out TEXT1 TEXT2
其中TEXT1
和TEXT2
是步骤 1 中描述的数据文件。
TEXT1
这会在与and相同的目录中生成四个文件TEXT2
(假设它们在同一目录中):
- TEXT1_TEXT2.snt
- TEXT1.vcb
- TEXT2_TEXT1.snt
- TEXT2.vcb
词汇文件包含文本中每个单词的唯一(整数)ID(注意:未标记化/lemmatized)、单词/字符串以及该字符串出现的次数。它们由一个空格字符分隔。
句子文件包含数字。对于每个句子对,有三行:第一行是该句子对在语料库中出现的次数的计数,第二和第三行是对应于单词条目的一串(空格分隔)数字词汇文件。根据文件的命名约定*.snt
,第一个文件被假定为源文件,第二个文件被假定为目标语言。例如,在文件TEXT1_TEXT2.snt
中,第一行将是第一个句子对在语料库中出现的次数的计数,第二行将是与TEXT1.vcb
文件中的单词对应的一串数字,第三行将是与文件中的单词对应的一串数字TEXT2.vcb
。
- 现在
TEXT1.vcb
,TEXT2.vcb
和 两个*.snt
文件中的任何一个都可以用作 GIZA++ 的输入来生成对齐。
例如:
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
但请注意,当我尝试运行它时,我必须重命名TEXT1_TEXT2.snt
为名称中不带下划线的名称,以获得任何正确的输出。
这个 Powerpoint 教程对我有用:http ://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
这个很有帮助: http: //fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/
IIT-B 学者对 GIZA++ 和 MOSES 的设置和使用做了很好的详细介绍。
其中一些是: http ://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf
这里有关于如何格式化输入文件以及如何运行 GIZA++ 的补充说明:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt