问题标签 [machine-translation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
373 浏览

amazon-s3 - 在亚马逊上运行 moses 服务器

我正在尝试在 Amazon ec2 ebs 支持的实例上运行 moses 服务器。语言模型和翻译模型总共大约 200GB。我正在考虑安装 moses 实例加载存储在 s3 上的语言模型和翻译模型。但我不知道如何配置 moses.ini 文件以使 moses 知道 ttable-file 和 lmodel-file 的路径。如果有人以前这样做过,任何帮助将不胜感激!!

谢谢你。

0 投票
6 回答
4482 浏览

android - android: TTS 会说粤语吗?

我正在学习编写一个旨在对给定字符串执行 TTS 的应用程序,并尝试了一个从 web 修改的示例:

编码如下:

问题:

int result = mTts.setLanguage(Locale.US); 如果上面的第 3 部分设置为 US 并完美地读出英文“一二三”,则一切正常。(在上面的例子中,它会跳过所有的中文单词,只读出一二三)

但是,如果我通过将语言设置为 setLanguage(Locale.CHINESE) 来更改字符串以读出中文,它会立即提示“不支持语言”。

我想问一下

  1. 现在的TTS还不支持中文?我更喜欢粤语而不是中文。

  2. 当我通过语音(粤语)输入信息时,手机能够识别粤语。实际上是否有其他方式来执行 TTS 输出为粤语?

谢谢!!

0 投票
2 回答
982 浏览

python - Python 多处理/EM

我在 Python 中做了一个机器学习期望最大化算法,基本上是 IBM Model1 的一个实现,用于进行机器翻译(如果你想查看代码,这里是我的 GitHub ),它可以工作,但是很慢。我现在正在学习并行计算课程,我想知道是否可以使用Python 多处理来更快地达到收敛。谁能给我任何指示或提示?我什至不知道从哪里开始。

编辑:我正在阅读并发现这篇关于使用 EM 和 MapReduce 进行并行化的论文——也许这是一个更好的主意?

0 投票
1 回答
119 浏览

prolog - 如何在 MT 的 prolog 中进行树转移

我需要找到一种方法以不同的顺序将解析树传输到另一个解析树。它适用于具有 SVO 和 SOV 架构的两种语言的机器翻译项目。

我希望它是

根据一个规则,t1 代表 SVO 语言,t2 代表 SOV 语言架构。

并且该规则集应该适用于带有形容词和副词的复杂句子。

任何评论都会很有用

谢谢玛西

0 投票
1 回答
896 浏览

android - 如何在我的安卓应用程序中使用谷歌翻译?

我正在尝试开发一个 android 应用程序,我需要根据用户要求在应用程序中实现多种语言。我用谷歌搜索它,我找到了这个链接。 http://code.google.com/p/google-api-translate-java/

在此链接中,它会将我们带到https://cloud.google.com/

我按照说明进行操作,但最后它要求我找到已注册的应用程序(我没有)。我被困在这里。请帮我。

0 投票
1 回答
146 浏览

dataset - 以下哪一个是训练和调整摩西的更好数据集?

我正在尝试使用 Moses 构建泰米尔语-英语翻译系统。https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库数据源。dict 文件长约 70k 行,其他文件在 2-3k 范围内,训练文件长约 30k。如果有人暗示以下哪些是训练和调整的更好选择,会有所帮助?

目前,我使用训练文件进行训练,使用测试文件进行调优。有更好的组合吗?

0 投票
1 回答
509 浏览

java - 如何为翻译记忆库/缓存设计高性能的密钥匹配算法?

最近,我被分配为一个新项目构建翻译记忆库。这个想法是 TM 是 RPC 层之上的一个缓存层,如果 TM 中没有匹配项,它将调用 Google Translate API 进行翻译。我考虑使用源文本作为 TM 中的键,我需要一个模糊匹配算法来匹配查询文本和 TM 中的键。如果结果高于某个阈值,例如 0.85(范围为 0 到 1),则将使用缓存的翻译文本,而不是调用 google 服务。

我已经阅读了很多文章/博客/论文,但仍然不知道从哪里开始。TD-IDF+余弦相似度似乎不够好?莱文斯坦距离?语义相似度如何?但是怎么做?

我在评论中读到了这一点 ,@mbatchkarov 似乎提供了一个正确的方向。

有没有人在这个问题上有类似的经验?欢迎任何建议。

0 投票
2 回答
1478 浏览

java - 使用 Google Translate API 进行翻译

我想使用以下代码作为将用户输入翻译成英语的程序的基础。我收到错误“找不到符号 - GoogleApi”。有人可以帮我弄清楚该怎么做吗?

0 投票
4 回答
18246 浏览

javascript - 谷歌翻译 iframe 解决方法

我正在使用谷歌翻译工具来翻译一个网页,并且我在这个页面上也有一个 iframe,这显然没有与页面一起翻译。

有没有一种解决方法,你们中的任何人都知道,所以我也可以翻译 iframe 吗?

0 投票
1 回答
473 浏览

theano - Theano 中的类型化列表

考虑以下机器翻译问题。设s作为源句和t目标句。这两个句子在概念上都表示为索引列表,其中索引对应于相关词典中单词的位置。例子:

请注意,st不一定具有相同的长度。现在让ST成为此类实例的集合。换句话说,它们是一个平行语料库。例子:

请注意,并非所有s's inS都具有相同的长度。也就是说,句子具有可变数量的单词。

我正在 Theano 中实现一个机器翻译系统,第一个设计决策是使用什么样的数据结构ST. 从在 numpy 中具有不同行长度的矩阵上发布的一个答案中,我了解到类型列表是存储可变长度张量的一个很好的解决方案。

但是,我意识到它们使我的代码复杂化了很多。让我举一个例子。假设我们有两个类型化的列表yp_y_given_x并且旨在计算负损失可能性。如果它们是常规张量,像这样的简单语句就足够了:

categorical_crossentropy只能应用于张量,所以在类型列表的情况下,我必须遍历它们并将函数分别应用于每个元素:

除了使我的代码越来越混乱之外,这些问题还会传播。例如,如果我想计算损失的梯度,则以下内容不再起作用:

我不知道为什么它不起作用。我确定它与 的类型有关loss,但我没有兴趣进一步研究如何使其工作。混乱正在呈指数级增长,我想知道我是否以错误的方式使用类型列表,或者是时候放弃它们了,因为它们还没有得到足够好的支持。