问题标签 [machine-translation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3828 浏览

python - Python: Goslate translation request returns "503: Service Unavailable"

A few months ago, I used Python's goslate package to translate a bunch of French text to English. When I tried to do so this morning, though, the service returned an error:

Does anyone know what happened to goslate? If it's gone for good, are there decent alternatives to the goslate package for translating French to English via an API call?

0 投票
1 回答
601 浏览

ios - 如何在 iOS 中使用 Bing Api 翻译语言?

我是 iOS 的新手,我制作了一个包含语言翻译功能的应用程序,所以我使用 Bing API 并使用Github 的FGTranslator

但是它将法语翻译成英语,但我想为用户做出选择,因为用户可以选择诸如 as 之类的语言FrenchSpanish然后如何将语言从英语转换为西班牙语形式FGTranslator请给我解决方案。

这里FGTranslator的语言转换器方法看起来像

在这里,我如何从用户选择中设置不同的语言。

在这里,我为它编写了一个方法,然后出现了 as 之类的错误FGTranslatorErrorDomainerror 1。请帮我写一个像这样的方法

我在这里写en英文和js日文请帮助我。

0 投票
1 回答
1259 浏览

nlp - 如何使用庞大的语言模型调整机器翻译模型?

Moses是一个建立机器翻译模型的软件。并且KenLM是 moses 使用的事实上的语言模型软件。

我有一个包含 16GB 文本的文本文件,我用它来构建这样的语言模型:

生成的文件 ( text.arpa) 为 38GB。然后我将语言模型二值化为:

二值化语言模型 ( text.binary) 增长到 71GB。

中,在训练翻译模型后,您应该使用算法moses调整模型的权重。MERT这可以通过https://github.com/moses-smt/mosesdecoder/blob/master/scripts/training/mert-moses.pl轻松完成。

MERT 适用于小语言模型,但对于大语言模型,需要相当长的时间才能完成。

我进行了谷歌搜索,发现了 KenLM 的过滤器,它承诺将语言模型过滤到更小的尺寸:https ://kheafield.com/code/kenlm/filter/

但我对如何使它工作一无所知。命令帮助给出:

但是当我尝试以下操作时,它会卡住并且什么也不做:

二值化后的语言模型应该怎么做?是否有任何其他步骤来操作大型语言模型以减少调整时的计算负载?

调整大型 LM 文件的常用方法是什么?

如何使用 KenLM 的过滤器?

(有关https://www.mail-archive.com/moses-support@mit.edu/msg12089.html的更多详细信息)

0 投票
0 回答
414 浏览

perl - 如何在 Asiya 机器翻译评估工具包中使用基本 BLEU 分数?

Asiya 是机器翻译评估工具包,用于对机器翻译输出进行评分 ( http://asiya.lsi.upc.edu/ )。它主要是用 Perl 编写的。

如何使用 Asiya 执行 BLEU 指标?

我关注了youtube介绍视频:https ://www.youtube.com/watch?v=rA5De9Z4uWI

并创建了一个配置文件(Asiya.config):

我的机器翻译输出文件在corpus.tok/hyp.tok.ja,源文件在corpus.tok/test.tok.en,参考文件(正确翻译)在corpus.tok/test.tok.ja. 它们是标记化的纯文本文件,每一行都是一个句子。

当我跑的时候:

我收到了这个错误:

工具目录确实作为我运行命令的当前目录中的子目录存在。什么地方出了错?是否有可以为 Asiya 工具目录添加的参数?

如何使用 Asiya 进行 BLEU 评估?

如果我不使用 Asiya,我还能如何获得每个句子的 BLEU 分数和机器翻译输出的系统 BLEU 分数?

(有关http://nlp.lsi.upc.edu/redmine/boards/11/topics/138的更多详细信息)

0 投票
1 回答
656 浏览

machine-learning - Moses 文档(统计机器翻译)mose.ini 文件格式?

是否有任何关于摩西的 moses.ini 格式的文档?在不带参数的命令行上运行 moses 会返回可用的功能名称,但不会返回它们的可用参数。此外,我可以看到的手册中没有指定 .ini 文件的结构。

0 投票
1 回答
580 浏览

corpus - 为什么摩西使用 Europarl 的表现如此糟糕?

我已经开始和摩西一起玩,并试图建立一个我认为是相当标准的基线系统。我基本上遵循了网站上描述的步骤,但news-commentary我没有使用Europarl v7 进行训练,使用 WMT 2006 开发集和原始 Europarl 通用测试。我的想法是做一些类似于Le Nagard & Koehn (2010) 的事情,他们在基线英语到法语系统中获得了 0.68 的 BLEU 分数。

总而言之,我的工作流程或多或少是这样的:

  1. tokenizer.perl在一切
  2. lowercase.perl(而不是truecase
  3. clean-corpus-n.perl
  4. 仅使用 Europarl v7 中的法语数据训练 IRSTLM 模型
  5. train-model.perl完全按照描述
  6. mert-moses.pl使用 WMT 2006 开发
  7. 如所述测试和测量性能

由此产生的 BLEU 分数是 0.26 ......这让我想到了两个问题:

  • 这是这种基线系统的典型 BLEU 分数吗?我意识到 Europarl 是一个非常小的语料库,可以用来训练单语语言模型,尽管这就是他们在 Moses 网站上做事的方式。
  • 对于刚从 SMT 和/或我可能陷入的摩西开始的人来说,是否有任何典型的陷阱?或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统,例如使用一些更大的、未公开的语料库来训练语言模型?
0 投票
4 回答
2279 浏览

python - 如何保存 Python NLTK 对齐模型供以后使用?

在 Python 中,我NLTK's alignment module用于在平行文本之间创建单词对齐。对齐双文本可能是一个耗时的过程,尤其是在处理大量语料库时。有一天批量进行对齐并在以后使用这些对齐会很好。

创建模型后,如何 (1) 将其保存到磁盘并 (2) 以后重复使用?

0 投票
0 回答
130 浏览

android - android中针对动态文本的语言集成集成问题

我想在我的应用程序中为我的动态字符串值集成多种语言。此字符串值不在我的资源文件夹中,因此我尝试了以下 API 以进行集成:

  1. 谷歌翻译 API
  2. Yandex API
  3. 微软翻译 API

并尝试以下代码:

当我集成上述 API 时,它将无法正常工作。他们限制了字符错误的访问,我还购买了 1 美元的 Google API,而不是同样的错误。

在 Yandex API 中,由于限制访问字符,它会删除一些文本内容。

除此之外,我还尝试以下代码:

我仍然没有得到我想要的正确结果,所以知道是否可以将字符串从一种语言翻译成另一种语言?

0 投票
1 回答
160 浏览

speech-recognition - 语音到文本到翻译是不可能的梦想吗?

从理论上讲,人们可以使用笔记本电脑或平板电脑或手机的麦克风来捕捉口语,将其转换为屏幕上的单词,然后通过访问诸如谷歌翻译之类的 API,看到“a”(而不是“the”——无论如何几乎都不会) ) 这些词的粗略翻译“草稿”(例如,从英语到西班牙语或从西班牙语到英语)。

我认为这在法庭上会很有用——作为法庭口译员的一种“免提备忘录”。

理论上很简单,但可行吗?我看到了几个潜在的问题:

必须告诉软件哪个是目标语言,哪个是源语言。否则,如果将设备留给自己的设备(自动检测),可能会出现延迟,有时甚至会得出错误的结论。

必须过滤掉背景噪音和声音。

翻译(尝试)只有在说话者完成句子后才有效 - 软件如何知道这一点?按停顿的长度?有的人在一句话内停顿很久;有些人在句子之间几乎没有停顿,所以……那将如何工作?

人们说话不清楚,或口音难以理解。

这甚至没有提到(除了这里,间接地)机器人霸主翻译经常误解上下文。

我的直觉是,如果亚伯拉罕·林肯和马丁·路德·金同时讲话(即使在法庭上,有时也确实会发生这种情况),该软件会出现这样的情况:

对于 score 和七年前的今天,我很高兴与您一起加入。我们的父亲在这片大陆上带来了第四个,一个新的国家,在历史上将成为自由中最伟大的构想,并且。致力于为所有人的自由示威而生而平等的汗水。我们民族的历史。

...然后被翻译成这样:

Por puntuación y hace siete años que estoy encantado de unirme a ustedes hoy。Nuestros padres trajeron cuarto en estecontinente, una nueva nación, en lo que va a pasar a la historia como el mayor concebida en la libertad, y. Dedicada a la transpiración que la demostración por la libertad en todos los hombres son creados iguales。La historia de nuestra nación。

我想,我想说的是,当涉及到这类事情时,人类会“摇滚”——至少与目前复杂程度的机器(软件)相比,但我们是否会“摇滚”?足以克服这个问题吗?有没有办法克服这些障碍,至少足以让这样的程序值得使用?完美是无法实现的;我相信,匹配人类技能也是一个无法实现的目标,尤其是因为上下文因素。尽管如此: Speech-to-Text-to-Context-to-Translation 是否可以做得相对较好,如果可以,怎么做?

0 投票
1 回答
92 浏览

php - 在发送信息之前翻译值

是否可以使用 google api translate 或任何其他 api 来翻译 php 中的值...

这个过程是可能的还是我只是在做梦?
我对 Goolge API 的工作原理知之甚少,因为我只使用 Google Translate 小部件,并且翻译是在您提供信息之后进行的,但在这种情况下,我们需要在提供信息之前进行翻译......