问题标签 [giza++]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2060 浏览

installation - Is there a proper installation guide for Giza++ on Ubuntu?

I see proper installation guide available for Giza, but not for Giza++. The instructions for installing the former (as found here http://giza.sourceforge.net/documentation/installation.html) is obviously not working on the latter. I am using Ubuntu 12.04.

0 投票
1 回答
1214 浏览

cygwin - cygwin 在运行 GIZA++ 时出现错误:“Segmentation fault (core dumped)”

我在 cygwin 上运行了 GIZA++,但它有一个错误“分段错误(核心转储)”。我找不到任何配置文件。请帮助我,我该如何解决它。

0 投票
1 回答
275 浏览

class - GIZA++ 的 mkcls 文件中的单词是如何聚集到单词类中的,它们是根据什么分组的?

  1. giza++ 中的 mkcls 有什么用?

  2. 在运行 mkcls 时,giza++ 为源语言和目标语言生成四个文件 *.vcb.classes 和 *.vcb.classes.cats。

*.vcb.classes 的输出是:

这些数字代表什么?是单词类数字吗?如果它是一个词类编号,那么它是如何生成的,或者它是如何分类的,基于什么?

0 投票
1 回答
285 浏览

nlp - GIZA++ 的命令“plain2snt.out”在 CYGWIN 中没有任何作用

我正在尝试使用 GIZA++ 使用 CYGWIN 进行单词对齐。我使用 MAKE 命令编译了 GIZA++,并获得了需要进一步处理的文件:Giza++.exe、mkcls.exe、snt2cooc.out、plain2snt.out。但是,当我执行时:

没有创建 .vcb 和 .snt 文件。可能是什么问题呢?

0 投票
1 回答
823 浏览

c++ - GIZA++ 输出缺少 *.ti.final 和 *actual.ti.final 文件

我在理解如何运行 GIZA++ 的基础知识时遇到问题。

我在 StackOverflow 上进行了讨论(是否有关于 giza++ 的教程?)并通过人们提供的链接。我已经从 Moses-SMT Github 下载并编译了最新的 giza。

编译成功后,我编写了一个简单的脚本用于测试。

现在这是我运行脚本后目录的内容。

关键是输出缺少下面列出的(对我来说很重要)文件。

现在我一直在查看 GIZA 的 Main.cpp(行:260 - 273)并且可以看到应该创建这些文件的行。

我还在日志中打印了“cerr”行,但我无法找出为什么这些文件不存在于输出中。

请问有人遇到过类似的问题吗?这是某种错误还是我做错了什么?

编辑:

现在我已经重新编译了整个 GIZA++,没有in a 中的-DBINARY_SEARCH_FOR_TTABLE选项。并更改了脚本,使其不会生成并提供 coocurrence 文件给 GIZA++。在我重新运行脚本后,输出确实包含and 。有人知道如何解释这种行为吗?我教过我会使用 coocurrence 文件获得更好的对齐和概率估计,请问有什么需要吗?还是只是为了提高性能的速度?CFLAGSMakefileout.actual.ti.finalout.ti.final

0 投票
1 回答
154 浏览

moses - Moses 机器翻译 - 将 Moses 与 Anymalign 一起使用

有谁知道如何用从这里获得的 Anymalign 替换摩西中的 GIZA++

其实使用Moses有9个步骤,我想不通过第2步和第3步就开始第4步,但是不使用GIZA++似乎是不可能的。有人有线索吗?

0 投票
1 回答
278 浏览

shell - 如何为 moses 指定自定义 boost 目录到 mgiza?

我下载了 mosesdecoder 并成功编译。由于版本不同存在一些 boost 错误,我在自定义目录中安装了 boost。我现在正在尝试使用自定义提升安装来安装 mgiza。

在 moses 附加资源页面:http ://www.statmt.org/moses/?n=Moses.ExternalTools中,它说:

编译 MGIZA 需要 Boost 库。如果您的 Boost 库位于非系统目录中,请使用脚本

编译 MGIZA。

但简单地从 mgiza/mgizapp 目录运行它会产生很多文件未找到错误。我发现我必须正确设置 SRC_DIR 和 BOOST_ROOT 目录。

一旦我设置好了,代码文件的初始行和所有后续的编译文件都保存在 $PWD 中,我从中编译脚本。

那么我应该从哪个目录编译脚本才能顺利端到端地运行 moses?

更新:我已经回答了这个问题。谢谢

0 投票
0 回答
212 浏览

machine-translation - 如何在 mgiza++ 或 giza++ 中加速 mkcls 步骤,它占用大量时间进行词聚类?

我正在使用 MGIZA++ 来对齐来自联合国平行语料库的双文字。</p>

在使用 MGIZA++ 训练对齐模型之前,我需要使用mkcls脚本创建隐马尔可夫模型算法所需的类,如下所示:

我正在用 1,000,000 行的语料库上尝试它,但这需要很长时间并且仍然无法得到结果(当我尝试一个小数据集时,它可以工作)。

是否有用于执行 mkcls 的多线程或并行工具包?

0 投票
1 回答
198 浏览

giza++ - GIZA++:禁止零句长0

当我在测试数据集上使用时,我一直在使用 GIZA++ 翻译句子,显示错误“错误:禁止零句子长度 0”。有什么办法可以避免这个错误

0 投票
1 回答
406 浏览

machine-translation - giza++ 短语表中的计数是什么意思?

我一直在官方网站(和 pdf 手册)中搜索 giza++ 短语表输出中数字的含义:http: //www.statmt.org/moses/? n=FactoredTraining.ScorePhrases

这就是我想出的。

假设这是短语表中的一行

这意味着:

这些都很有道理。

然而,如果我使用文本编辑器进行文本搜索,我会得到:

即,完全不同的数字。

另一个奇怪的地方是:

所以,考虑到官网的解释,

一种解释可能是它可能正好相反。

但是,实际计数(“the”)是 21466。

是否有其他一些教程/手册可以更好地阐明 giza++ 输出文件的内容?