问题标签 [machine-translation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python: Goslate translation request returns "503: Service Unavailable"
A few months ago, I used Python's goslate
package to translate a bunch of French text to English. When I tried to do so this morning, though, the service returned an error:
Does anyone know what happened to goslate
? If it's gone for good, are there decent alternatives to the goslate
package for translating French to English via an API call?
ios - 如何在 iOS 中使用 Bing Api 翻译语言?
我是 iOS 的新手,我制作了一个包含语言翻译功能的应用程序,所以我使用 Bing API 并使用Github 的FGTranslator。
但是它将法语翻译成英语,但我想为用户做出选择,因为用户可以选择诸如 as 之类的语言French
,Spanish
然后如何将语言从英语转换为西班牙语形式FGTranslator请给我解决方案。
这里FGTranslator
的语言转换器方法看起来像
在这里,我如何从用户选择中设置不同的语言。
在这里,我为它编写了一个方法,然后出现了 as 之类的错误FGTranslatorErrorDomainerror 1
。请帮我写一个像这样的方法
我在这里写en
英文和js
日文请帮助我。
nlp - 如何使用庞大的语言模型调整机器翻译模型?
Moses
是一个建立机器翻译模型的软件。并且KenLM
是 moses 使用的事实上的语言模型软件。
我有一个包含 16GB 文本的文本文件,我用它来构建这样的语言模型:
生成的文件 ( text.arpa
) 为 38GB。然后我将语言模型二值化为:
二值化语言模型 ( text.binary
) 增长到 71GB。
中,在训练翻译模型后,您应该使用算法moses
调整模型的权重。MERT
这可以通过https://github.com/moses-smt/mosesdecoder/blob/master/scripts/training/mert-moses.pl轻松完成。
MERT 适用于小语言模型,但对于大语言模型,需要相当长的时间才能完成。
我进行了谷歌搜索,发现了 KenLM 的过滤器,它承诺将语言模型过滤到更小的尺寸:https ://kheafield.com/code/kenlm/filter/
但我对如何使它工作一无所知。命令帮助给出:
但是当我尝试以下操作时,它会卡住并且什么也不做:
二值化后的语言模型应该怎么做?是否有任何其他步骤来操作大型语言模型以减少调整时的计算负载?
调整大型 LM 文件的常用方法是什么?
如何使用 KenLM 的过滤器?
(有关https://www.mail-archive.com/moses-support@mit.edu/msg12089.html的更多详细信息)
perl - 如何在 Asiya 机器翻译评估工具包中使用基本 BLEU 分数?
Asiya 是机器翻译评估工具包,用于对机器翻译输出进行评分 ( http://asiya.lsi.upc.edu/ )。它主要是用 Perl 编写的。
如何使用 Asiya 执行 BLEU 指标?
我关注了youtube介绍视频:https ://www.youtube.com/watch?v=rA5De9Z4uWI
并创建了一个配置文件(Asiya.config):
我的机器翻译输出文件在corpus.tok/hyp.tok.ja
,源文件在corpus.tok/test.tok.en
,参考文件(正确翻译)在corpus.tok/test.tok.ja
. 它们是标记化的纯文本文件,每一行都是一个句子。
当我跑的时候:
我收到了这个错误:
工具目录确实作为我运行命令的当前目录中的子目录存在。什么地方出了错?是否有可以为 Asiya 工具目录添加的参数?
如何使用 Asiya 进行 BLEU 评估?
如果我不使用 Asiya,我还能如何获得每个句子的 BLEU 分数和机器翻译输出的系统 BLEU 分数?
(有关http://nlp.lsi.upc.edu/redmine/boards/11/topics/138的更多详细信息)
machine-learning - Moses 文档(统计机器翻译)mose.ini 文件格式?
是否有任何关于摩西的 moses.ini 格式的文档?在不带参数的命令行上运行 moses 会返回可用的功能名称,但不会返回它们的可用参数。此外,我可以看到的手册中没有指定 .ini 文件的结构。
corpus - 为什么摩西使用 Europarl 的表现如此糟糕?
我已经开始和摩西一起玩,并试图建立一个我认为是相当标准的基线系统。我基本上遵循了网站上描述的步骤,但news-commentary
我没有使用Europarl v7 进行训练,使用 WMT 2006 开发集和原始 Europarl 通用测试。我的想法是做一些类似于Le Nagard & Koehn (2010) 的事情,他们在基线英语到法语系统中获得了 0.68 的 BLEU 分数。
总而言之,我的工作流程或多或少是这样的:
tokenizer.perl
在一切lowercase.perl
(而不是truecase
)clean-corpus-n.perl
- 仅使用 Europarl v7 中的法语数据训练 IRSTLM 模型
train-model.perl
完全按照描述mert-moses.pl
使用 WMT 2006 开发- 如所述测试和测量性能
由此产生的 BLEU 分数是 0.26 ......这让我想到了两个问题:
- 这是这种基线系统的典型 BLEU 分数吗?我意识到 Europarl 是一个非常小的语料库,可以用来训练单语语言模型,尽管这就是他们在 Moses 网站上做事的方式。
- 对于刚从 SMT 和/或我可能陷入的摩西开始的人来说,是否有任何典型的陷阱?或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统,例如使用一些更大的、未公开的语料库来训练语言模型?
python - 如何保存 Python NLTK 对齐模型供以后使用?
在 Python 中,我NLTK's alignment module
用于在平行文本之间创建单词对齐。对齐双文本可能是一个耗时的过程,尤其是在处理大量语料库时。有一天批量进行对齐并在以后使用这些对齐会很好。
创建模型后,如何 (1) 将其保存到磁盘并 (2) 以后重复使用?
android - android中针对动态文本的语言集成集成问题
我想在我的应用程序中为我的动态字符串值集成多种语言。此字符串值不在我的资源文件夹中,因此我尝试了以下 API 以进行集成:
- 谷歌翻译 API
- Yandex API
- 微软翻译 API
并尝试以下代码:
当我集成上述 API 时,它将无法正常工作。他们限制了字符错误的访问,我还购买了 1 美元的 Google API,而不是同样的错误。
在 Yandex API 中,由于限制访问字符,它会删除一些文本内容。
除此之外,我还尝试以下代码:
我仍然没有得到我想要的正确结果,所以知道是否可以将字符串从一种语言翻译成另一种语言?
speech-recognition - 语音到文本到翻译是不可能的梦想吗?
从理论上讲,人们可以使用笔记本电脑或平板电脑或手机的麦克风来捕捉口语,将其转换为屏幕上的单词,然后通过访问诸如谷歌翻译之类的 API,看到“a”(而不是“the”——无论如何几乎都不会) ) 这些词的粗略翻译“草稿”(例如,从英语到西班牙语或从西班牙语到英语)。
我认为这在法庭上会很有用——作为法庭口译员的一种“免提备忘录”。
理论上很简单,但可行吗?我看到了几个潜在的问题:
必须告诉软件哪个是目标语言,哪个是源语言。否则,如果将设备留给自己的设备(自动检测),可能会出现延迟,有时甚至会得出错误的结论。
必须过滤掉背景噪音和声音。
翻译(尝试)只有在说话者完成句子后才有效 - 软件如何知道这一点?按停顿的长度?有的人在一句话内停顿很久;有些人在句子之间几乎没有停顿,所以……那将如何工作?
人们说话不清楚,或口音难以理解。
这甚至没有提到(除了这里,间接地)机器人霸主翻译经常误解上下文。
我的直觉是,如果亚伯拉罕·林肯和马丁·路德·金同时讲话(即使在法庭上,有时也确实会发生这种情况),该软件会出现这样的情况:
对于 score 和七年前的今天,我很高兴与您一起加入。我们的父亲在这片大陆上带来了第四个,一个新的国家,在历史上将成为自由中最伟大的构想,并且。致力于为所有人的自由示威而生而平等的汗水。我们民族的历史。
...然后被翻译成这样:
Por puntuación y hace siete años que estoy encantado de unirme a ustedes hoy。Nuestros padres trajeron cuarto en estecontinente, una nueva nación, en lo que va a pasar a la historia como el mayor concebida en la libertad, y. Dedicada a la transpiración que la demostración por la libertad en todos los hombres son creados iguales。La historia de nuestra nación。
我想,我想说的是,当涉及到这类事情时,人类会“摇滚”——至少与目前复杂程度的机器(软件)相比,但我们是否会“摇滚”?足以克服这个问题吗?有没有办法克服这些障碍,至少足以让这样的程序值得使用?完美是无法实现的;我相信,匹配人类技能也是一个无法实现的目标,尤其是因为上下文因素。尽管如此: Speech-to-Text-to-Context-to-Translation 是否可以做得相对较好,如果可以,怎么做?
php - 在发送信息之前翻译值
是否可以使用 google api translate 或任何其他 api 来翻译 php 中的值...
这个过程是可能的还是我只是在做梦?
我对 Goolge API 的工作原理知之甚少,因为我只使用 Google Translate 小部件,并且翻译是在您提供信息之后进行的,但在这种情况下,我们需要在提供信息之前进行翻译......