1

我目前正在尝试翻译包含多种语言的段落。

现在我已经通过谷歌翻译 API 实现了,如果我们可以说: hello bye hola 它会将语言检测为英语,如果是: hello hola adios那么它将检测西班牙语。

因此,基本上无论哪种语言在句子/段落中的字数最多,它都会检测到该语言。现在有趣的是,在谷歌翻译上他们实际上有这个功能。

有什么办法可以解决这个问题,让它只检测外语而不检测英语?

4

1 回答 1

1

不,谷歌翻译 API 没有办法做到这一点,因为在他们的公共 API 中没有公开的机制。

如果您使用备用语言检测库,您可以定义一个阈值,在该阈值下删除较少表示的语言的内容。如果英语内容占整个样本文本的比例不到 30%,这将允许您删除它。

例如,查看optimaize/language-detector项目RemoveMinorityScriptsTextFilterTest中的类。

于 2016-02-07T22:39:22.390 回答