问题标签 [language-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 非常短文本的语言检测
我正在创建一个用于检测短文本语言的应用程序,平均少于 100 个字符并包含俚语(例如推文、用户查询、短信)。
我测试的所有库都适用于普通网页,但不适用于非常短的文本。迄今为止提供最佳结果的库是 Chrome 的语言检测 (CLD) 库,我必须将其构建为共享库。
当文本由非常短的单词组成时,CLD 会失败。在查看 CLD 的源代码后,我发现它使用 4-gram,这可能是原因。
我现在正在考虑的提高准确性的方法是:
- 删除品牌名称、数字、网址和“软件”、“下载”、“互联网”等词
- 使用字典 当文本包含多个超过阈值的短单词或包含的单词太少时。
- 该词典是根据维基百科新闻文章 + hunspell 词典创建的。
什么数据集最适合这项任务?我该如何改进这种方法?
到目前为止,我正在使用 EUROPARL 和 Wikipedia 文章。我在大部分工作中都使用 NLTK。
ruby-on-rails - 如何检测给定文本的语言
在我的 Rails 3 应用程序中,用户可以在论坛中写消息。我想确定给定消息的语言是什么。我对英语、俄语和希伯来语感兴趣。Ruby/Rails 中是否有用于此类任务的内置库?如果没有,任何想法将不胜感激。
jsp - 在 Java Servlet 中自动为用户选择国家和语言
我必须使用请求详细信息(IP 地址、浏览器信息等)在 Java Servlet 中自动检测用户国家和语言。是否可以为大多数用户(~90%)检测这些设置?
java - 将语言配置文件添加到 Apache Tika
可以请任何设法做到这一点的人解释如何做到这一点:-)
我需要为我需要添加的语言获取 n-gram 文件吗?
是创建tika.language.override.properties
,添加一些其他语言代码并在 classPath 上添加 lang-code.ngp n-gram 文件的问题吗?在那种情况下,我从哪里得到它,为什么 Tika 不支持更多语言,如果只是这个问题?
目前支持这些语言进行语言检测
并且 tika 使用传统的 n-gram 表示法
此语言检测应用程序当前支持这些语言,但具有不同的 n-gram 文件
JSON 表示法
c++ - 在运行时可以检测到 C++03 和 C++11 之间的哪些差异(如果有)?
可以编写一个函数,当用 C 编译器编译时将返回 0,而当用 C++ 编译器编译时,将返回 1(简单
的解决方案#ifdef __cplusplus
并不有趣)。
例如:
当然,上面的方法只有在sizeof (char)
不一样的情况下才有效sizeof (int)
另一个更便携的解决方案是这样的:
我不确定这些示例是否 100% 正确,但您明白了。我相信还有其他方法可以编写相同的功能。
在运行时可以检测到 C++03 和 C++11 之间的哪些差异(如果有)?换句话说,是否可以编写一个类似的函数来返回一个布尔值,指示它是由符合标准的 C++03 编译器还是 C++11 编译器编译的?
google-chrome - 使用 Chrome 扩展程序检测当前的标签语言?
有没有办法使用 chrome API 来检测当前选项卡中当前内容的语言?
android - 如何检测俄语以在 Android 中本地化应用程序
我有一个需要支持英语、西班牙语和俄语的应用程序。
为了检测到这一点,我使用这种方法:
UserLanguage 如果是英语则为“en”,“es”为西班牙语,如果是俄语则需要为“ru”,否则为英语。但是,当我将手机上的语言环境设置为俄语时,它不会被检测到。Android 网站上的文档没有提及俄语。有什么帮助吗?
c++ - 语言检测
我将tesseract用于 OCR,主要用于发票。但是,tesseract 需要在开始处理文件之前指定语言。
我以为我将根据预定义的默认语言执行 ocr。然后我想使用生成的文本来检查使用的是哪种语言。如果它不是默认语言,我会再次对其进行处理,以便从 tesseract 中获得更好的结果。
但是如何实现语言检测算法呢?有我可以使用的 C++ 库吗?
java - 使用 PostgreSQL 中的数据进行语言检测
我在 PostgreSQL 中有一个表,其中一列是文本。我需要一个库或工具来识别每个文本的语言以用于测试目的。
不需要 PostgreSQL 代码,因为我在安装语言时遇到问题,但是任何可以连接到数据库、检索文本并识别它的语言都是受欢迎的。
我Lingua::Identify
在 Perl 脚本中的答案中使用了建议,它有效,但结果并不准确。
我想识别的文本来自网络,大多数是葡萄牙语,但Lingua::Identify
被归类为法语、意大利语和西班牙语,它们是相似的语言。
我需要更精确的东西。
我添加了java
andr
标签是因为我在系统中使用的语言和使用它们的解决方案将很容易实现,但是任何语言的解决方案都是受欢迎的。
java - 如何通过 tika 检测波斯语网页?
我需要一个示例代码来帮助我通过 apache tika 工具包检测波斯语网页。
我已经下载了 apache.tika jar 文件并将它们添加到类路径中。但是此代码为波斯语提供了错误,但它适用于英语。如何将波斯语添加到 tika 的语言标识符包中?