问题标签 [giza++]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
11269 浏览

nlp - 有没有关于 giza++ 的教程?

其“自述文件”文件中的 URL 无效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html)。有没有关于 giza++ 的好教程?或者是否有一些具有完整文档的替代方案?

0 投票
1 回答
405 浏览

c++ - 编译 giza 1.0.5 时出错

我目前正在尝试编译从http://code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.5.tar.gz下载的 GIZA++ 。但是每次我运行 make 命令时,总是会出现以下错误:

我真的不知道怎么回事,谁能帮帮我?

我正在使用带有 g++ 版本 4.5.1 的 Fedora 14

谢谢你的帮助

0 投票
1 回答
435 浏览

machine-learning - Giza++ 的糟糕结果和评估

我曾尝试在窗口上使用 giza++(使用 Cygwin 编译器)。我使用了这段代码:

//假设源语言是法语,目标语言是英语

但是在从 giza++ 获取输出文件并评估输出后,我观察到结果太糟糕了。

我的评估结果是:

召回 = 0.0889

精度 = 0.0990

F_MEASURE = 0.0937

AER = 0.9035

有没有人知道原因?原因可能是我忘记了一些参数或者我应该更改其中一些参数?

换句话说:

首先,我想通过大量数据训练 giza++,然后通过小型语料库对其进行测试,并通过所需的对齐方式(GOLD STANDARD)比较其结果,但我在 web.xml 中找不到任何文档或有用的页面。

你能介绍有用的文件吗?

因此,我通过小型语料库(447 句)运行它并通过所需的对齐方式比较结果。你认为这是正确的方法吗?

我也改变了我的代码,得到了更好的结果,但它仍然不好:

GIZA++ -S testlowsf.f.vcb -T testlowde.e.vcb -C testlowsf.f_testlowde.e.snt -m1 5 -m2 0 -mh 5 -m3 5 -m4 0 -CoocurrenceFile inputcooc.cooc -o dictionary -model1dumpfrequency 1 -model4smoothfactor 0.4 -nodumps 0 -nsmooth 4 -onlyaldumps 1 -p0 0.999 -diagonal yes -final yes

评估结果:

// 假设 A 是 GIZA++ 的结果,G 是黄金标准。As 和 Gs 是 A 和 G 文件中的 S 链接。Ap 和 Gp 是 A 和 G 文件中的 p 链接。

RECALL = 相交 Gs/Gs = 0.6295

精度 = Ap 相交 Gp/A = 0.1090

FMEASURE = (2*PRECISION*RECALL)/(RECALL + PRECISION) = 0.1859

AER = 1 - ((As 相交 Gs + Ap 相交 Gp)/(A + S)) = 0.7425

你知道原因吗?

0 投票
1 回答
919 浏览

machine-learning - 如何在 Giza++ 中进行训练和测试步骤?

在人工智能方法中,我们有两个训练阶段。这些阶段是数据和测试。

在训练阶段,我们向系统提供大量数据,我们通常用较小的数据量对其进行测试。然后我们评估输出。

现在的问题是这种培训可以通过嵌入在 GIZA++ 中的内置功能来完成,还是我们应该为此编写一个单独的应用程序?

如果我们应该编写一个单独的应用程序,任何人都可以通过建议一个已经编写的应用程序来帮助我吗?还是说明书?注意:我想要一个对齐程序而不是统计机器翻译

我更愿意在 Giza++ 中训练,这样我就可以使用未观察到的数据进行测试。

提前致谢。

0 投票
1 回答
1418 浏览

c++ - mgiza 编译错误

我正在尝试在我的 Ubuntu 机器上安装最新版本的 mgiza++ (0.7.1),但出现以下错误。我已经通过运行以下命令安装了 Boost:sudo apt-get install libboost-all-dev

运行后 ./configure

运行 make 后

我怀疑我没有在 Make 文件中正确链接 Boost 库。如果您有任何想法,请告诉我。

0 投票
1 回答
488 浏览

makefile - Giza++安装,FORTRAN问题

我正在尝试在 Ubuntu 12.10 64 位上安装 Giza++ 和 Moses。虽然让我不断遇到同样的问题:

...................................

谷歌搜索没有多大帮助。对于如何解决此问题的任何提示,我将不胜感激。我应该怎么做才能用 -fPIC 重新编译它?

0 投票
1 回答
302 浏览

alignment - 嘈杂文本语料库中的句子分割和对齐

我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。

我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。

为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。

然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。

如何分割和对齐语料库的句子?

0 投票
2 回答
579 浏览

nlp - 如何使用 GIZA++ 解决 mkcls 占用大量内存和时间进行字对齐的问题?

我正在使用GIZA++来对齐来自Europarl corpus的 bitexts 中的单词。

在我使用 训练对齐模型之前GIZA++,我需要使用mkcls脚本来制作隐马尔可夫模型算法所需的类,如下所示:

我已经尝试过使用小型 1000 行语料库,它可以正常工作并在几分钟内完成。现在我正在用 1,500,000 行的语料库上尝试它,它占用了我的一个 CPU 的 100%(Six-Core AMD Opteron(tm) Processor 2431 × 12)

在上课之前,我已经采取了必要的步骤来标记化,降低所有大写字母并过滤掉超过 40 个单词的行。

有人mkcls对 GIZA++ 有类似的经验吗?它是如何解决的?如果有人在 Europarl 语料库上做过同样的事情,那么您运行mkcls.

0 投票
1 回答
571 浏览

g++ - giza stream.h 错误致命

从这里安装 Giza 时:

解压缩并运行“make”后,出现以下错误:

任何人都知道我该如何解决这个问题?

0 投票
2 回答
853 浏览

moses - GIZA++ - 如何计算对齐分数?

这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。

我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。

可能有人有想法吗?

提前谢谢你的帮助。