问题标签 [moses]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
373 浏览

amazon-s3 - 在亚马逊上运行 moses 服务器

我正在尝试在 Amazon ec2 ebs 支持的实例上运行 moses 服务器。语言模型和翻译模型总共大约 200GB。我正在考虑安装 moses 实例加载存储在 s3 上的语言模型和翻译模型。但我不知道如何配置 moses.ini 文件以使 moses 知道 ttable-file 和 lmodel-file 的路径。如果有人以前这样做过,任何帮助将不胜感激!!

谢谢你。

0 投票
1 回答
474 浏览

python - Python NLTK 中标记化文本和普通文本之间的区别

我正在使用 WordPunct Tokenizer 来标记这句话:

في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة فسي ادور شيء

我的代码是:

我注意到打印输出与输入语句相同,那么为什么要使用分词器呢?此外,使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗?

0 投票
1 回答
234 浏览

translation - 正确格式的阿拉伯语到英语的翻译系统

我正在建立一个从阿拉伯语到英语的摩西机器翻译系统。阿拉伯文本文件应该采用哪种格式,我应该按原样输入文本文件还是应该颠倒每个句子的词序?换句话说,摩西分词器是否需要颠倒阿拉伯语或按原样?

0 投票
1 回答
609 浏览

python - Moses v1.0 多语言ini文件

我正在使用 mosesserver 0.91,一切正常,但现在有 1.0 版,没有什么与以前相同。

这是我的情况:

我想要从阿拉伯语到英语以及从英语到阿拉伯语的多语言翻译。我拥有的所有数据和配置文件都适用于 0.91 版本的 mosesserver。这是我的配置文件:

所以请有人可以帮助我并重写这个配置文件,以便它可以在 1.0 版中工作。我需要一些 python 翻译示例代码。我在 python 中使用 xmlrpc,之前我发送了 http 请求:

但现在似乎没有更多的“系统”参数,摩西总是使用默认设置。

0 投票
1 回答
824 浏览

segmentation-fault - 摩西因分段错误而崩溃

我正在将 Arch linux 与下一个软件包一起使用:

  • gcc-multilib 4.8.2-4
  • 提升 1.54.0-4
  • xmlrpc-c 1:1.36.00-1
  • 吉萨-pp 1.0.7-2
  • irstlm 5.80.03-6
  • moses-git 20121023-1(这是 mosesdecoder v1.0)

我正在使用 1 年前制作的短语表、重新排序模型和语言模型(所以它们可能很旧,但适用于旧版本)。

这是来自 gdb 的完整堆栈

有人可以帮我解决这个错误。我怀疑两件事:旧数据模型和 xmlrpc-c 库。

0 投票
2 回答
853 浏览

moses - GIZA++ - 如何计算对齐分数?

这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。

我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。

可能有人有想法吗?

提前谢谢你的帮助。

0 投票
1 回答
239 浏览

c++ - Moses 源代码中的关键字 mutable 是做什么用的?

这是关于统计机器翻译系统Moses的源代码。在Mosesdecoder 项目Factor的类中,关键字 有一个奇怪的用法:mutable

的完整文件Factor.h这里。我知道mutable当您想要修改 const 成员函数中的成员变量,或者想要修改 lambda 表达式中的某些超出范围的变量时,会使用它。但是,我不明白mutable这段代码在做什么。

我很感激任何提示。谢谢你。

0 投票
4 回答
2255 浏览

perl - 需要拆分 Unicode 字符串

我正在为我的翻译系统使用 moses 工具包。我正在使用阿萨姆语和英语平行语料库并对其进行培训。但有些专有名词没有翻译。这是因为我有一个非常小的语料库(并行数据集)。所以我想在我的翻译系统中使用音译过程。

我正在使用此命令进行翻译: echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini

这给了我输出“কানাদা是一个广阔的国家”。

这是因为“কানাদা”这个词不在我的平行语料库中。

所以我拿了一些阿萨姆语和英语的平行单词列表,并按字符分解每个单词。因此,两个文件的每一行都会有单个单词,每个字符(或每个音节)之间有一个空格。我已经使用这 2 个文件将系统训练为正常的翻译任务

然后我使用以下命令 echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl

这给了我输出“ক া ন া দ া 是一个幅员辽阔的国家”

我不得不打破这个词,因为我已经对系统进行了字符训练..

然后我使用了我使用命令训练的音译系统:

echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini

这给了我输出“加拿大是一个幅员辽阔的国家”

字符是音译的..但唯一的问题是单词之间的空格。所以我想使用一个将加入单词的perl文件。我的最终命令将是

echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini | ./join.pl

帮我处理这个“join.pl”文件。

0 投票
0 回答
205 浏览

moses - 修改 moses.ini 以进行增量训练

我需要更新以下 moses.ini 以支持增量训练,我按照教程进行操作,发现必须在 moses.ini 文件中添加这一行

但无论我如何将它放在 moses.ini 中,当我尝试启动 mt 模型时它都不起作用并给出错误

这是我把它放到 moses.ini 中的方法

然后我设置了适当的路径,那么任何人都可以帮助我吗?提前致谢

0 投票
1 回答
146 浏览

dataset - 以下哪一个是训练和调整摩西的更好数据集?

我正在尝试使用 Moses 构建泰米尔语-英语翻译系统。https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库数据源。dict 文件长约 70k 行,其他文件在 2-3k 范围内,训练文件长约 30k。如果有人暗示以下哪些是训练和调整的更好选择,会有所帮助?

目前,我使用训练文件进行训练,使用测试文件进行调优。有更好的组合吗?