问题标签 [language-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
355 浏览

node.js - 如何理解 utf8 编码文本中的文本语言?

Redis 正在使用 utf8 代码,对于我的项目,我需要获取文本语言,即 utf8 编码文本。

有什么方法可以提供有关文本语言的线索吗?

编辑:我的项目是关于 NodeJs 编程语言的。在 Redis 中,也许 lua 脚本有办法处理这个问题,但在 nodejs 中是否有任何包可以理解从 Redis 检索到的文本?

0 投票
0 回答
1388 浏览

java - Java 从大字符串中检测内容语言

我正在做一个项目,其中有内容为英语和西班牙语的 pdf,我只对其中的英语部分感兴趣并将其保存到数据库中。我正在使用 Apache PDF 框从中提取文本。如何我避免使用西班牙语内容并获取只有英文部分的文本。我尝试了一些库,如 Apache Tika 和https://code.google.com/p/language-detection/,但在某些情况下它们没有给出正确的结果。任何人都可以提供一些可靠的解决方案或任何其他方式来实现要求。提前致谢。

0 投票
0 回答
655 浏览

python - unicode、beautifulsoup、cld2 和 python 的问题

我正在尝试检测 beautifulsoup/python 中许多页面的语言。

这就是我如何使用美丽的汤来生成文本对象......

这会产生一个 unicode 对象,但是当我在其上运行 cld2 时经常会收到以下错误。

如果我对其进行编码,我将不再收到该特定文本的错误。

...但我最终得到了另一段文字的不同错误

所有这些编码的东西完全让我感到困惑。有什么方法可以确保我只有有效的 utf-8 和 unicode 字符?

0 投票
1 回答
326 浏览

python - 使用 Python 检测文件中的语言变化

我需要检测文件中的语言变化,并相应地标记每个单词。我想出了一个 hacky 方式,适用于 2 种语言(英语和希腊语)。

脚本是这样的:

主要思想是,如果每个单词的第一个字母不是 ascii 可解码的,它就不能是英文,所以它是唯一的其他选择。

现在我意识到这非常hacky,我想知道我将如何以更pythonic的方式去做?甚至以一种适用于文档中多种语言的方式。

PS。我通常知道如何检测文档中的语言,但是我想知道是否有更快的方法来检测更改而不调用 nltk 等工具。

0 投票
1 回答
1632 浏览

google-translate - 谷歌翻译错误的语言检测(多种语言)

我目前正在尝试翻译包含多种语言的段落。

现在我已经通过谷歌翻译 API 实现了,如果我们可以说: hello bye hola 它会将语言检测为英语,如果是: hello hola adios那么它将检测西班牙语。

因此,基本上无论哪种语言在句子/段落中的字数最多,它都会检测到该语言。现在有趣的是,在谷歌翻译上他们实际上有这个功能。

有什么办法可以解决这个问题,让它只检测外语而不检测英语?

0 投票
1 回答
166 浏览

php - 检测语言;CakePHP updateAll 性能不佳

更新:我认为 cakePhp updateAll 是问题所在。如果我取消注释 updateAll 和 pr 结果,我会在 1-2 秒内得到如此多的语言检测,比如 5 分钟!!!!我只需要更新一行,就可以确定该行的作者和标题...有没有更好更快的方法???

我正在使用detectlanguage.com来检测我的 sql 数据库中的所有英文文本。我的数据库由大约 500.000 行组成。我尝试了很多方法来更快地检测我所有文本的语言。现在需要很多天......:/

  • 我只发送 20% 的文本(看看我的代码)
  • 我试图复制我的函数并多次运行该函数。复制的代码显示了标题以 A 开头的所有文本的功能

我只能同时运行 6 个功能...(本地主机)...我在新选项卡中尝试了第 7 个功能,但是

等待可用的套接字....

我希望有人对我的问题有想法......现在我所有文本的语言检测将需要一个多星期的时间:/:/

我的电脑运行了 20 多个小时,几乎没有中断……但我只检测到大约 13.000 条文本的语言……而我的数据库中有 500.000 条文本……

  • 现在我尝试批量发送文本,但它也很慢......我总是在一个数组中发送 20 个文本,我认为这是最多的......

cakePhp 3.X updateAll-function 是否有可能让它变得如此缓慢?

0 投票
3 回答
813 浏览

java - 从数据库列中检测字符串值的语言

我有一个学校项目的想法,想就如何实施它征求您的意见。

我想创建一个应用程序,使用户能够上传数据文件。应用程序应该能够检测文本字段的语言(法语、英语等)并使用该值填充语言列。我最初只能实现几种语言,应用程序可能应该在语言列中给出语言的概率。例如 70% 法语 30% 拉丁语。

我脑海中的问题:我可以自己在我的应用程序中实施这些语言规则吗?应用程序应该用什么理想的编程语言编写?Java 还是 C++?如果您有任何建议,我将不胜感激。非常感谢!

0 投票
1 回答
3550 浏览

ocr - 使用 tesseract 或 abby ocr 进行语言检测

我有包含阿拉伯文或英文文本的文档图像作为图像是否有可能以某种方式知道这两个图像中包含什么语言

0 投票
1 回答
768 浏览

java - 基于内容的网页语言检测

我正在研究网页语言检测,并设法通过我开发的其他中间件检索页面的内容。因为没有标准化的内容位置。但是,我不知道如何检测我尝试使用 lang 和 xml:lang 标签的语言,但它们并不像我预期的那样高效,因为我看到某些网站的语言与标签中指定的语言不同,任何帮助将不胜感激?(环境java eclipse)

0 投票
1 回答
40058 浏览

angular - 浏览器语言检测

我需要在我的 Angular2 应用程序中检测浏览器语言。基于这种语言,我需要发送请求(到后端的 REST API),其中包含我需要翻译的变量的本地化和 ID。之后,我收到了带有翻译变量的回复。

因此,应用程序工作流程是检测浏览器语言,例如en-US,之后我将向后端发送请求,给我 lang for en-US 以获取 ID 为 1、2、3、4、5 的变量。响应是{{id:1, var:pay}, {id:1, var:title}}等。

那么如何使用 Angular2(使用 typescript 开发)浏览器语言进行检测?