问题标签 [machine-translation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么 nltk.align.bleu_score.bleu 给出错误?
我在计算中文句子的 BLEU 分数时发现了零值。
候选句子是c
and 两个引用是r1
andr2
代码为:
但我得到了一个结果0
。当我进入这个bleu
过程时,我发现
上面的程序转到except ValueError
. 但是,我不知道为什么这会返回错误。如果我尝试其他句子,我可以获得一个非零值。
nlp - moses train-model.perl 脚本错误,--lm factor:order:filename requied
当我运行时:
显示:
错误:使用 --lm factor:order:filename 在 /home/zhanwang/mosesdecoder/scripts/training/train-model.perl 第 597 行指定至少一种语言模型。
root@zhanwang-virtual-machine:/home/zhanwang/mosesmodel/corpus3# $MOSES/scripts/training/train-model.perl
但我不想使用因子模型。
也试试这个,给我看同样的东西。无论我尝试什么参数,它都会要求我使用 -- lm factor:order:filename
。
对于标准短语模型,您通常会按如下方式运行训练脚本。
我想建立基于语法的翻译模型,我该怎么办?
这是我的语料库:
我想提取 ghkm 规则并建立一个可以翻译“给我弗吉尼亚州的城市”的模型。“回答城市 loc_2 stateid 'virginia'”
machine-translation - 使用 Odashi/mteval 时出错:无法打开共享对象文件
mteval-sentence -e BLEU RIBES -r ref.tok -h hyp1.tok
尝试在 Ubuntu中运行命令时,我不断收到错误消息。错误是“mteval-sentence:加载共享库时出错:libmteval.so.0:无法打开共享对象文件:没有这样的文件或目录”。有小费吗?
neural-network - 注意力模型实现 Keras/Theano
我正在寻找使用 Keras/Theano 的机器翻译注意力模型的实现。我遇到过像土拨鼠这样的库,但我正在寻找一些基本的实现。
python - 观察 tensorflow rnn 模型权重
我正在使用此处发布的 tensorflow rnn 翻译模型:
翻译模型
我想根据自己的想法对这段代码的一部分进行修改。
我想做的第一件事是target_weights
在每一层中查看。
我所知道的是,首先一个数组target_weights
包含用于填充的零和句子中每个单词的 1。
初始化后,它被馈送到 session.run 方法,它肯定会改变。
现在我想知道是否有人知道在学习过程中我应该如何看到这个数组的变化。
或者别的什么,我怎样才能看到每一层的权重并检查每一层对应的值。
提前致谢
machine-learning - 机器翻译中单词对齐的格式是什么?
我正在阅读这篇论文,但很难理解单词对齐的表示方式。准确地说,在下面的部分4.1
,作者说对齐的格式是源句长度(i,j)
内的范围和目标句范围内的范围。这意味着每个对齐方式是一对两个数字,假设句子通常不超过 40-100 个单词,值为,并且可以使用type 存储。因此,我希望看到存储这些对齐所需的空间量为. 但是如果你转到下一页,就在上面的部分,他们说空间是。为什么?我在混淆东西吗?i
j
i
j
short
2 x sizeof(short) x number of word alignments
4.2
sizeof(short) x number of word alignments
algorithm - 词法结构转移的最佳解析器算法?
作为一个更大项目的一部分,我想实现一个从语言A到语言B的机器翻译器。由于没有可用的工具可以自动对这组语言进行机器翻译,并且语言 B 的可用语料库非常少,我正在尝试执行以下操作:
1.给定一个语言A的句子,使用一个工具来获取它的语言A PoS(词性)标签集。
2.我用于 PoS 标记的工具(Freeling)没有返回解析树,所以我想从标签集构建我自己的解析树。
3.解析树完成后,逐级遍历(从根开始),按照语言B的语法规则对其元素重新排序。
在做了一些研究之后,我发现了 Earley 解析(它解析任何语言的能力引起了我的注意,因为语言B的语法可能会随着时间的推移而改变,所以我不能保证它总是符合任何特定标准)。 但是,鉴于我的最终目标是进行结构转移,我不确定使用自下而上的解析器并在将元素与规则匹配时尝试重新排序是否会给我带来更好的性能,或者我是否走错了路我的解决方案完全错误。
python - 在 Tensorflow 中使用两个不同的 LSTM 单元
我正在构建一个神经机器翻译器,我必须使用两个不同的 LSTM 单元(一个用于编码器,一个用于解码)。
这两个单元格具有不同的形状:
- 编码器(第一个)被输入输入句子的标记并产生一个状态向量
- 解码器(第二个)被输入之前的状态向量,以及自己生成的令牌
我在 Tensorflow 中编写了这个,当我运行脚本时,出现以下错误(在解码器阶段引发):
如何明确指定我要创建一个全新的 LSTM 单元?
提前致谢 !
亚历克西斯
machine-learning - 从拉丁语(英语、德语)到阿拉伯语的语音翻译
我读了几篇关于机器翻译的论文,但没有很好地理解它们。
语言模型(在谷歌翻译中)尽我所能使用语音和机器学习。
然后我的问题变成了是否可以将一个用英语拼写的阿拉伯语单词转换为用户想要的阿拉伯语单词?
例如,单词“Hadith”是阿拉伯语单词“حديث”的英语注音。我可以以编程方式从“圣训”转到阿拉伯语吗?
c# - 微软翻译错误请求 (400) 问题
我已经看到有关此问题的线程,但我的问题特别令人困惑。我有一个免费的 200 万字符订阅、一个有效的客户 ID 和密码。当我运行我的代码时,我可以成功调用 API 几次(我见过的最多的是 75 次连续成功调用)。然后每个其他调用都返回一个错误的请求响应:远程服务器返回一个错误:(400)错误请求。
我用我的凭据创建了一次令牌,然后再也没有创建它。我遍历一个文件,解析它,并通过调用 API 提交每个解析的字符串进行翻译。似乎我达到了我现在知道的某种限制。
查看我的帐户时,它似乎并没有忽略我已经翻译的字符,这让我非常怀疑我在创建令牌时使用了错误的凭据。我检查了四次,一切似乎都很好。
任何关于我可能在这里遗漏的指导将不胜感激。
这是创建令牌的代码。我确实认为免费订阅可能存在我不知道的未知限制。
这是调用 API 本身的代码。我从循环中调用 API 方法。
多次成功调用 API 后,我开始收到以下消息: System.Net.WebException: The remote server returned an error: (400) Bad Request。在 System.Net.HttpWebRequest.GetResponse() 在 Translate.TranslateText.Program.RunBing(String sterm)