问题标签 [giza++]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 有没有关于 giza++ 的教程?
其“自述文件”文件中的 URL 无效(http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html)。有没有关于 giza++ 的好教程?或者是否有一些具有完整文档的替代方案?
c++ - 编译 giza 1.0.5 时出错
我目前正在尝试编译从http://code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.5.tar.gz下载的 GIZA++ 。但是每次我运行 make 命令时,总是会出现以下错误:
我真的不知道怎么回事,谁能帮帮我?
我正在使用带有 g++ 版本 4.5.1 的 Fedora 14
谢谢你的帮助
machine-learning - Giza++ 的糟糕结果和评估
我曾尝试在窗口上使用 giza++(使用 Cygwin 编译器)。我使用了这段代码:
//假设源语言是法语,目标语言是英语
但是在从 giza++ 获取输出文件并评估输出后,我观察到结果太糟糕了。
我的评估结果是:
召回 = 0.0889
精度 = 0.0990
F_MEASURE = 0.0937
AER = 0.9035
有没有人知道原因?原因可能是我忘记了一些参数或者我应该更改其中一些参数?
换句话说:
首先,我想通过大量数据训练 giza++,然后通过小型语料库对其进行测试,并通过所需的对齐方式(GOLD STANDARD)比较其结果,但我在 web.xml 中找不到任何文档或有用的页面。
你能介绍有用的文件吗?
因此,我通过小型语料库(447 句)运行它并通过所需的对齐方式比较结果。你认为这是正确的方法吗?
我也改变了我的代码,得到了更好的结果,但它仍然不好:
GIZA++ -S testlowsf.f.vcb -T testlowde.e.vcb -C testlowsf.f_testlowde.e.snt -m1 5 -m2 0 -mh 5 -m3 5 -m4 0 -CoocurrenceFile inputcooc.cooc -o dictionary -model1dumpfrequency 1 -model4smoothfactor 0.4 -nodumps 0 -nsmooth 4 -onlyaldumps 1 -p0 0.999 -diagonal yes -final yes
评估结果:
// 假设 A 是 GIZA++ 的结果,G 是黄金标准。As 和 Gs 是 A 和 G 文件中的 S 链接。Ap 和 Gp 是 A 和 G 文件中的 p 链接。
RECALL = 相交 Gs/Gs = 0.6295
精度 = Ap 相交 Gp/A = 0.1090
FMEASURE = (2*PRECISION*RECALL)/(RECALL + PRECISION) = 0.1859
AER = 1 - ((As 相交 Gs + Ap 相交 Gp)/(A + S)) = 0.7425
你知道原因吗?
machine-learning - 如何在 Giza++ 中进行训练和测试步骤?
在人工智能方法中,我们有两个训练阶段。这些阶段是数据和测试。
在训练阶段,我们向系统提供大量数据,我们通常用较小的数据量对其进行测试。然后我们评估输出。
现在的问题是这种培训可以通过嵌入在 GIZA++ 中的内置功能来完成,还是我们应该为此编写一个单独的应用程序?
如果我们应该编写一个单独的应用程序,任何人都可以通过建议一个已经编写的应用程序来帮助我吗?还是说明书?注意:我想要一个对齐程序而不是统计机器翻译
我更愿意在 Giza++ 中训练,这样我就可以使用未观察到的数据进行测试。
提前致谢。
c++ - mgiza 编译错误
我正在尝试在我的 Ubuntu 机器上安装最新版本的 mgiza++ (0.7.1),但出现以下错误。我已经通过运行以下命令安装了 Boost:sudo apt-get install libboost-all-dev
运行后 ./configure
运行 make 后
我怀疑我没有在 Make 文件中正确链接 Boost 库。如果您有任何想法,请告诉我。
makefile - Giza++安装,FORTRAN问题
我正在尝试在 Ubuntu 12.10 64 位上安装 Giza++ 和 Moses。虽然让我不断遇到同样的问题:
...................................
谷歌搜索没有多大帮助。对于如何解决此问题的任何提示,我将不胜感激。我应该怎么做才能用 -fPIC 重新编译它?
alignment - 嘈杂文本语料库中的句子分割和对齐
我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。
我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。
为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。
然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。
如何分割和对齐语料库的句子?
nlp - 如何使用 GIZA++ 解决 mkcls 占用大量内存和时间进行字对齐的问题?
我正在使用GIZA++来对齐来自Europarl corpus的 bitexts 中的单词。
在我使用 训练对齐模型之前GIZA++
,我需要使用mkcls脚本来制作隐马尔可夫模型算法所需的类,如下所示:
我已经尝试过使用小型 1000 行语料库,它可以正常工作并在几分钟内完成。现在我正在用 1,500,000 行的语料库上尝试它,它占用了我的一个 CPU 的 100%(Six-Core AMD Opteron(tm) Processor 2431 × 12)
在上课之前,我已经采取了必要的步骤来标记化,降低所有大写字母并过滤掉超过 40 个单词的行。
有人mkcls
对 GIZA++ 有类似的经验吗?它是如何解决的?如果有人在 Europarl 语料库上做过同样的事情,那么您运行mkcls
.
g++ - giza stream.h 错误致命
从这里安装 Giza 时:
解压缩并运行“make”后,出现以下错误:
任何人都知道我该如何解决这个问题?
moses - GIZA++ - 如何计算对齐分数?
这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。
我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。
可能有人有想法吗?
提前谢谢你的帮助。