问题标签 [moses]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - 在亚马逊上运行 moses 服务器
我正在尝试在 Amazon ec2 ebs 支持的实例上运行 moses 服务器。语言模型和翻译模型总共大约 200GB。我正在考虑安装 moses 实例加载存储在 s3 上的语言模型和翻译模型。但我不知道如何配置 moses.ini 文件以使 moses 知道 ttable-file 和 lmodel-file 的路径。如果有人以前这样做过,任何帮助将不胜感激!!
谢谢你。
python - Python NLTK 中标记化文本和普通文本之间的区别
我正在使用 WordPunct Tokenizer 来标记这句话:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة فسي ادور شيء
我的代码是:
我注意到打印输出与输入语句相同,那么为什么要使用分词器呢?此外,使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗?
translation - 正确格式的阿拉伯语到英语的翻译系统
我正在建立一个从阿拉伯语到英语的摩西机器翻译系统。阿拉伯文本文件应该采用哪种格式,我应该按原样输入文本文件还是应该颠倒每个句子的词序?换句话说,摩西分词器是否需要颠倒阿拉伯语或按原样?
python - Moses v1.0 多语言ini文件
我正在使用 mosesserver 0.91,一切正常,但现在有 1.0 版,没有什么与以前相同。
这是我的情况:
我想要从阿拉伯语到英语以及从英语到阿拉伯语的多语言翻译。我拥有的所有数据和配置文件都适用于 0.91 版本的 mosesserver。这是我的配置文件:
所以请有人可以帮助我并重写这个配置文件,以便它可以在 1.0 版中工作。我需要一些 python 翻译示例代码。我在 python 中使用 xmlrpc,之前我发送了 http 请求:
但现在似乎没有更多的“系统”参数,摩西总是使用默认设置。
segmentation-fault - 摩西因分段错误而崩溃
我正在将 Arch linux 与下一个软件包一起使用:
- gcc-multilib 4.8.2-4
- 提升 1.54.0-4
- xmlrpc-c 1:1.36.00-1
- 吉萨-pp 1.0.7-2
- irstlm 5.80.03-6
- moses-git 20121023-1(这是 mosesdecoder v1.0)
我正在使用 1 年前制作的短语表、重新排序模型和语言模型(所以它们可能很旧,但适用于旧版本)。
这是来自 gdb 的完整堆栈
有人可以帮我解决这个错误。我怀疑两件事:旧数据模型和 xmlrpc-c 库。
moses - GIZA++ - 如何计算对齐分数?
这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。
我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。
可能有人有想法吗?
提前谢谢你的帮助。
c++ - Moses 源代码中的关键字 mutable 是做什么用的?
这是关于统计机器翻译系统Moses的源代码。在Mosesdecoder 项目Factor
的类中,关键字 有一个奇怪的用法:mutable
的完整文件Factor.h
在这里。我知道mutable
当您想要修改 const 成员函数中的成员变量,或者想要修改 lambda 表达式中的某些超出范围的变量时,会使用它。但是,我不明白mutable
这段代码在做什么。
我很感激任何提示。谢谢你。
perl - 需要拆分 Unicode 字符串
我正在为我的翻译系统使用 moses 工具包。我正在使用阿萨姆语和英语平行语料库并对其进行培训。但有些专有名词没有翻译。这是因为我有一个非常小的语料库(并行数据集)。所以我想在我的翻译系统中使用音译过程。
我正在使用此命令进行翻译: echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini
这给了我输出“কানাদা是一个广阔的国家”。
这是因为“কানাদা”这个词不在我的平行语料库中。
所以我拿了一些阿萨姆语和英语的平行单词列表,并按字符分解每个单词。因此,两个文件的每一行都会有单个单词,每个字符(或每个音节)之间有一个空格。我已经使用这 2 个文件将系统训练为正常的翻译任务
然后我使用以下命令 echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl
这给了我输出“ক া ন া দ া 是一个幅员辽阔的国家”
我不得不打破这个词,因为我已经对系统进行了字符训练..
然后我使用了我使用命令训练的音译系统:
echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini
这给了我输出“加拿大是一个幅员辽阔的国家”
字符是音译的..但唯一的问题是单词之间的空格。所以我想使用一个将加入单词的perl文件。我的最终命令将是
echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini | ./join.pl
帮我处理这个“join.pl”文件。
moses - 修改 moses.ini 以进行增量训练
我需要更新以下 moses.ini 以支持增量训练,我按照教程进行操作,发现必须在 moses.ini 文件中添加这一行
但无论我如何将它放在 moses.ini 中,当我尝试启动 mt 模型时它都不起作用并给出错误
这是我把它放到 moses.ini 中的方法
然后我设置了适当的路径,那么任何人都可以帮助我吗?提前致谢
dataset - 以下哪一个是训练和调整摩西的更好数据集?
我正在尝试使用 Moses 构建泰米尔语-英语翻译系统。https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库数据源。dict 文件长约 70k 行,其他文件在 2-3k 范围内,训练文件长约 30k。如果有人暗示以下哪些是训练和调整的更好选择,会有所帮助?
目前,我使用训练文件进行训练,使用测试文件进行调优。有更好的组合吗?