问题标签 [machine-translation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
127 浏览

macos - 编译摩西时出错。没有 dist 文件夹或 moses.ini 文件

我是一个初学者程序员,所以我仍在努力掌握一些东西。请温柔一点。

我正在尝试在 OS X 上安装和编译 Moses( http://www.statmt.org/moses/?n=Development.GetStarted ),但遇到了很多问题。

我一直按照这个网站(http://www.statmt.org/moses_steps.html)的说明进行操作,一切顺利,直到我真正编译了摩西。我正在使用以下代码:

这应该在 dist/bin/ 中创建几个文件,包括 moses.ini 解码器本身。但是, dist/bin/ 文件夹根本没有出现。在 Moses 编译过程中,我没有看到任何错误——在我真正检查文件并尝试运行 Moses 之前,一切似乎都很顺利。

当我尝试运行测试时,我使用以下内容:

我收到错误:没有这样的文件或目录。

有谁知道我可能做错了什么?任何和所有的建议将不胜感激。

谢谢!

0 投票
1 回答
555 浏览

perl - moses-SMT 系统中的分词器即使使用 10 个句子也卡住了

我试图制作一个基线 MT 系统。只是为了检查它是如何工作的,我制作了只有 2000 个句子的源 (S) 和目标 (T) 语言语料库。第一步是为机器翻译 (MT) 系统准备数据。在这一步中,我们首先必须执行Baseline SMT中提到的标记化。我用过这段代码:

(说 S = 法语 & T = 英语)

2小时后我检查它仍在运行。我很好奇,因为它没有预料到。然后我只用了十句话。令我惊讶的是,已经 30 分钟了,它仍在运行。

我做错什么了吗?

PS:OS = Ubuntu 14.04.5 LTS Sony ultrabook 没有双启动。

0 投票
3 回答
1160 浏览

machine-translation - 根据上下文翻译部分句子

我正在开发一个需要能够翻译部分句子的应用程序。问题是,如果我将这些部分发送到谷歌翻译之类的翻译 API,则翻译在它们发生的上下文中通常没有意义。例如:

离开大楼

如果我将叶子翻译成任何目标语言,我可能会在“树的叶子”的上下文中得到结果,这在示例中当然没有意义。因此,翻译需要考虑上下文。如果我将翻译句子扩展为He Leaves ,我会得到He Leaves的正确翻译。但是,我丢失了叶子的翻译,这是我正在寻找的词。

有谁知道我应该如何处理这个问题?请记住,Google Translate API 是一个付费 API,所以我想尽量减少我从 API 请求的翻译量。

0 投票
0 回答
108 浏览

nlp - 最先进的语言翻译工具包

我需要将西班牙语推文翻译成英文进行研究。我找到了一些工具包。其中,Moses被一些研究论文使用,其他新兴工具包将其用作评估目的的基准。所以我正在考虑将其作为候选人。另外,我从斯坦福大学找到了一个名为Phrsal的工具包,它似乎也不错。我找到的最后一个来自著名的nltk图书馆。它还有一个翻译包。他们每个人都说他们使用phrase based statistical machine translation技术和其他一些技术。现在我的问题是,从实践或理论的角度来看,哪个最适合用于推文翻译。或者google translator api将是最好的解决方案?

0 投票
0 回答
212 浏览

machine-translation - 如何在 mgiza++ 或 giza++ 中加速 mkcls 步骤,它占用大量时间进行词聚类?

我正在使用 MGIZA++ 来对齐来自联合国平行语料库的双文字。</p>

在使用 MGIZA++ 训练对齐模型之前,我需要使用mkcls脚本创建隐马尔可夫模型算法所需的类,如下所示:

我正在用 1,000,000 行的语料库上尝试它,但这需要很长时间并且仍然无法得到结果(当我尝试一个小数据集时,它可以工作)。

是否有用于执行 mkcls 的多线程或并行工具包?

0 投票
1 回答
345 浏览

tensorflow - TensorFlow seq2seq `feed_previous' 参数`

我正在使用内置tf.nn.seq2seq.embedding_attention_seq2seq()函数,但参数有一些问题feed_previous,在训练期间,groundtruth 被输入解码器,而在测试期间,我们将最后一个时间步的输出输入解码器。问题是,一旦我设置了feed_previous参数,我就无法更改该参数。我想在每个 epoch 测试我的模型,我应该怎么做?

0 投票
1 回答
52 浏览

machine-learning - 如何区分真正的改进和随机噪声?

我正在用 moses 构建一个自动翻译器。为了提高其性能,我使用对数线性权重优化。这种技术有一个随机分量,它会对最终结果产生轻微影响(但我不知道具体有多少)。

假设模型的当前性能为 25 BLEU。

假设现在我修改了语言模型(例如更改平滑),我得到了 26 BLEU 的性能。

我的问题是:我怎么知道改进是因为修改,还是只是来自随机分量的噪声?

0 投票
1 回答
397 浏览

tensorflow - 在 Tensorflow seq2seq 运行期间添加到 vocab

我正在使用 Tensorflow seq2seq教程来玩机器翻译。假设我已经对模型进行了一段时间的训练,并确定我想用新词来补充原始词汇以提高模型的质量。有没有办法暂停训练,在词汇表中添加单词,然后从最近的检查点恢复训练?我试图这样做,但是当我再次开始训练时,我得到了这个错误:

显然,新词汇更大,因此张量大小不匹配。有没有办法解决这个问题?

0 投票
1 回答
783 浏览

python - 如何从 Bluemix 上的 Python 访问 Watson Language Translator 服务?

我的笔记本电脑上有一个 Python Flask 应用程序,它成功地访问了 Bluemix 上的 Watson Language Translator,正如Bluemix API 文档中所述

我现在想将我的 Python Flask 应用程序移动到 Bluemix 并完全在 Bluemix 中访问 Language Translator 服务。所以我不能再使用from watson_developer_cloud import LanguageTranslatorV2 as LanguageTranslator

究竟如何使用语言翻译服务凭证访问 Bluemix 中的语言翻译服务?

0 投票
1 回答
183 浏览

azure - 是否有任何指南如何训练 Microsoft 自定义 MT 引擎并将其部署在 Azure 上?

我有一个 TMX 格式的大型并行语料库,我想用它来训练 Microsoft Translator Hub 中的自定义 Microsoft MT 引擎。然后,我想在 Azure 上部署这个训练有素的 MT 引擎,并在基于云的 CAT 工具中使用它。有没有分步指南如何做到这一点?