问题标签 [language-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-tika - 默认情况下不包含文档语言元
我正在使用 Apache Tika (1.13) 并注意到语言标签不包含在我通过tika-app --metadata运行的任何文档中。
对所有文档包含/强制语言检测的正确方法是什么?是否可以通过配置来完成,或者我可能必须添加一个新的解析器来添加这个元数据,或者覆盖链中的现有解析器?
谢谢!
php - 在没有大量依赖或第三方服务的情况下检测 PHP 中的语言文本
寻找一个 composer 包,它没有巨大的依赖(没有超过 3MB 的知识库)和第三方服务将能够确定文本的语言。
文本通常由几个单词组成。
例如,我希望看到这个包以高精度识别以下片段的语言:
英文文本
Текст на русском
Текст на русском и 一些英语单词
结城友奈は勇者である -鹰尾须美の章-第2章「たましい」</p>
விவேகம்</p>
El aeropuerto se 考虑
Wunderbar steht er da im Silberhaar。
Ein weiß glänzendes
si les faits n'obéissent pas
4 8 15 16 23 42
主要对以下语言的定性测定感兴趣:英语、俄语、德语、西班牙语、荷兰语、意大利语、法语、汉语、日语、挪威语、丹麦语、印度语。
如果这个包没有过时或被遗弃,那将是一个很大的优势。
PS:重要的是它们在运行时不会占用太多内存。
python - 改进西班牙语和加泰罗尼亚语之间语言检测的想法
我正在使用 python 编写文本挖掘脚本。我需要从数据集中检测自然语言字段的语言。
问题是,98% 的行都是西班牙语和加泰罗尼亚语。我尝试使用一些算法,比如stopwords
一个或langdetect
库,但是这些语言共享很多单词,所以他们失败了很多。
我正在寻找一些想法来改进这个算法。
一个想法是,用一些特定于西班牙语和加泰罗尼亚语的单词制作一本字典,所以如果一个文本包含这些单词中的任何一个,它就会被标记为该语言。
android - Android Studio:如何(在运行时)找出已应用的字符串资源
如何在运行时找出我在 Android Studio 中编写的应用程序已应用了哪个字符串资源实例?
更准确地说:我为三种语言(比如德语、英语和法语)定义了资源。
在运行时,我想找出实际应用的匹配项(到用户的语言环境)。
例如,如果用户说加拿大法语(他的手机的语言环境),那么匹配将是法语,正如我从 Android Studio 文档页面上的“语言环境”中了解到的那样。
如果用户的语言环境是日语,那么匹配将是默认的(在我的例子中是德语)。
如果区域设置更改为丹麦语,则应用的资源仍将是默认资源(德语)。
现在就我而言,我需要从我个人定义的资源(德语、英语和法语)中获取资源,这些资源实际上已应用于“扩展布局”。
原因是我在应用程序中进行了手动区域设置更改(并且仅对应用程序有效,对手机无效),并且我只想在底层字符串资源源确实发生更改时才对活动进行刷新过程。
nlp - 如何从文本示例中自动检测代码片段?
我正在对 GitHub 评论进行一些分析。但为此,我需要从大量注释中自动排除代码示例和错误消息。
另一种更简单的说法是,我只能保留评论的英文部分。虽然检测句子语言的库很少,但在我的案例中也没有什么挑战。1)注释部分并不总是遵循正确的英语语法,2)代码示例和错误消息也主要由英语单词组成。
那么什么应该是我最好的方法。结果不需要100%准确,我只想知道至少能给我一个满意结果的最佳方法。任何想法?
nlp - 使用空格作为分隔符来连接内容语言未知的单词是否安全
我必须对输入执行 NLP(特别是语言检测)。输入有多个字段:
{ field1: "", field2: "" ... }
我想合并所有字段并执行 NLP。但是,我不确定使用“SPACE”作为分隔符来连接内容是否安全。
jsp - 在 JSP 中获取操作系统语言
我想知道是否可以从 JSP 中获取客户端操作系统的语言以及如何获取?
java - 使用 com.cybozu.labs.langdetect 包检测字符串的语言
我正在寻找一个小示例代码来检测 JAVA 中字符串的语言。为此,我下载并导入了以下 GitHub 项目:https ://github.com/shuyo/language-detection
不幸的是,我正在努力阅读 API,而且我不知道如何让我的代码正常工作。非常感谢帮助。继承人我到目前为止。我得到一个 NullPointerException 因为我不知道如何正确初始化检测器。非常感谢您的帮助。
c# - 在后台获取当前键盘语言名称
我正在尝试在后台获取当前的键盘语言名称。我使用过InputLanguage.CurrentInputLanguage.Culture.Name
,但我知道当应用程序没有集中注意力时,这段代码不起作用。我的意思是当应用程序没有聚焦时它无法检测到语言变化并且它总是返回最后一个聚焦的语言。
那么我能做些什么来检测背景中的当前语言呢?我正在为我的应用程序使用 Windows 窗体。
microsoft-cognitive - 如何限制微软翻译的检测方法可以检测到的语言
我正在使用 Microsoft 认知服务和翻译服务作为其中的一部分。Translator API 支持多种语言,包括英语、法语、荷兰语等。
有时,同一个词可以出现在多种语言中。因此 API 随机返回语言 1 或语言 2。如果我希望将要检测的语言限制为 Microsoft 支持的语言的子列表,那么我该怎么做?
例如,有时将“hi”检测为语言“sl”而不是“en”,但我希望服务仅检测英语或法语。