19

其“自述文件”文件中的 URL 无效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html)。有没有关于 giza++ 的好教程?或者是否有一些具有完整文档的替代方案?

4

5 回答 5

41

以下内容摘自我为一堂课准备的教程。(注意:这假设您已经在 *nix 系统上成功安装了 GIZA++-v2。)


  1. 从包含已标记化的平行句子的两个数据文件开始,每行一个句子。例如,一对平行的英法文文件可能如下所示。

样品 1 -train.en

I gave him the book . 
He read the book . 
He loved the book .

样品 2 -train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
  1. 运行这些文件plain2snt.out以获得目标和源词汇文件 ( *.vcb) 以及句子对文件 ( *.snt)。

从 GIZA++ 目录,运行:

./plain2snt.out TEXT1 TEXT2

其中TEXT1TEXT2是步骤 1 中描述的数据文件。

TEXT1这会在与and相同的目录中生成四个文件TEXT2(假设它们在同一目录中):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

词汇文件包含文本中每个单词的唯一(整数)ID(注意:未标记化/lemmatized)、单词/字符串以及该字符串出现的次数。它们由一个空格字符分隔。

句子文件包含数字。对于每个句子对,有三行:第一行是该句子对在语料库中出现的次数的计数,第二和第三行是对应于单词条目的一串(空格分隔)数字词汇文件。根据文件的命名约定*.snt,第一个文件被假定为源文件,第二个文件被假定为目标语言。例如,在文件TEXT1_TEXT2.snt中,第一行将是第一个句子对在语料库中出现的次数的计数,第二行将是与TEXT1.vcb文件中的单词对应的一串数字,第三行将是与文件中的单词对应的一串数字TEXT2.vcb

  1. 现在TEXT1.vcb,TEXT2.vcb和 两个*.snt文件中的任何一个都可以用作 GIZA++ 的输入来生成对齐。

例如:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

但请注意,当我尝试运行它时,我必须重命名TEXT1_TEXT2.snt为名称中不带下划线的名称,以获得任何正确的输出。

于 2011-05-08T22:10:58.950 回答
3

这个 Powerpoint 教程对我有用:http ://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

于 2013-07-05T12:36:05.020 回答
0

这里有关于如何格式化输入文件以及如何运行 GIZA++ 的补充说明:

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt

于 2011-10-05T20:01:10.693 回答