问题标签 [language-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - 如何在 tika 中创建语言配置文件以添加其他语言标识?
起初,我尝试通过 tika 检测波斯语:
但我知道 tika 不支持波斯语,我必须在 tika 中创建语言配置文件来处理波斯语。但我不知道该怎么做。实际上我无法从以下链接或谷歌中的其他链接中理解任何内容。请帮我。
https://issues.apache.org/jira/browse/TIKA-546
我想知道将语言配置文件添加到 tika 的步骤。
solr - 用于非规范化混合语言文档的 Solr 语言检测更新处理器
我有一个事物数据库,每个事物都可以有多个不同语言的名称。这目前被规范化为一个事物有许多名称的模式:
我正在使用 Solr 对其进行索引,并试图找出将其非规范化为 Lucene 模式的最佳方法。这个工作正常:
问题是我需要为每种支持的语言单独指定一个字段和字段类型,可能有很多。由于我还使用 SQL DataImportHandler,这意味着我必须复制大量代码来指定 SQL 查询以将这些查询从数据库导入到此模式中。此外,language
名称字段并不总是正确的,因为它基于用户输入。
我正在查看 Solr 提供的语言检测功能,看起来非常好。但他们似乎只对整个文档起作用,在这种情况下,我猜这不会有太大帮助。有没有办法在架构中指定一个multiValued
字段,我可以在其中存储名称,其语言将被自动检测并相应地编制索引?或者语言检测设施可以让我在这里的生活更轻松的其他方式?
java - 用于推文语言检测的快速 Java 库?
根据这个错误,Twitter 的搜索 API 在语言方面已经被破坏了至少 2 年:http ://bit.ly/GQ244g所以他们似乎不太可能修复它。
我查看了其他语言检测线程中提到的库,它们看起来都很棒并且提供了 95% 以上的准确率。问题是,哪一个用于推文?
我怀疑推文可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关心的是性能。如果我可以更快地执行过滤,我不介意丢失一些推文。
所以我的问题是针对那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?
php - 测试输入数据的语言
可能重复:
从 PHP 中的字符串中检测语言
我想对输入数据的语言进行测试。例如:如果用户以另一种语言(中文、日语、阿拉伯语……)发送数据,则会出现一条错误消息,要求他以英语输入此数据。
python - python网站语言检测
我正在编写一个可以检查数千个网站的机器人,无论它们是英文还是非英文。
我正在使用 Scrapy(python 2.7 框架)来抓取每个网站的首页,
有人可以建议我检查网站语言的最佳方法吗?
任何帮助,将不胜感激。
java - 使用 langdetect 进行 Java 语言检测 - 如何加载配置文件?
我正在尝试使用一个名为langdetect
hosts here的 Java 库。使用起来再简单不过了:
除了关于DetectFactory.loadProfile
方法。当我将绝对文件路径传递给这个库时,它的效果很好,但最终我认为我需要将我的代码和langdetect
' 的伴随profiles
目录打包到同一个 JAR 文件中:
我将确保LangDetectAdaptor
位于内部的 whichmyapp.jar
提供了它在运行时工作所需的 thelangdetect.jar
和jsonic.jar
依赖项。langdetect
但是我很困惑我需要传递什么DetectFactory.loadProfile
才能工作:
langdetect
JAR 随profiles
目录一起提供,但您需要从 JAR 内部对其进行初始化。那么我是复制profiles
目录并将其放入我的 JAR 中(就像我上面规定的那样),还是有办法将它保留在里面langdetect.jar
但从我的代码中访问它?
在此先感谢您的帮助!
编辑:我认为这里的问题是这个目录langdetect
附带profiles
的,但是希望你从你的 JAR 中初始化它。API 可能会受益于稍作更改以仅考虑profiles
其自己的配置,然后提供方法,例如DetectFactory.loadProfiles().except("fr")
在您不希望它初始化法语等的情况下。但这仍然不能解决我的问题!
nutch - 如何爬取英文网站,避免爬取其他语言?
嗨,我只需要抓取他们的语言是英语的网站。我知道 nutch 可以通过语言检测器之类的插件检测网站的语言,但我需要防止 nutch 抓取非英语网站。虽然我知道我们需要抓取一个页面来理解我想在我们可以检测到语言的第一时间离开网站的语言。你能告诉我是否可能吗?例如,如果一个站点的两个或三个页面被获取并且它们不是英语 nutch 应该离开该站点并放弃这些页面和它们的所有 url。谢谢你的帮助。
javascript - 使用 Akamai 在 JS 客户端中自动检测和重定向语言
我有一个翻译成 18 种语言的网站(有 18 个翻译域)。它还具有基于语言的动态内容,即不同的产品,其中一些仅以特定语言提供。虽然有一个语言选择器,人们可以使用它来切换语言并因此切换站点,但该人以他不知道的语言找到语言选择器的机会并不太高。这是解决问题的关键,尤其是付费广告流量如果不加以处理就会被浪费。
我将 Akamai 用作 CDN,并希望在 JS 中进行检测和重定向,理想情况下是在边缘服务器层上,因此它不是另一个必须返回源服务器的调用。在浏览了他们的所有文档、UI 中的配置选项等之后,我没有看到这样做的方法。
虽然我确实与我的 Akamai 代表取得了联系,并与他们的一位工程师一起提出了解决方案,但我不知道它是否是最好的解决方案,并且对其他解决方案持开放态度。
c++ - 在 windows 上安装 CLD 库并绑定到 Python
我需要在 Python 脚本中使用 Chromium 的 Compact Language Detector 库。
AFAIK,有两个项目利用了这个库,但是我在将它们中的任何一个设置在 Windows 7 机器上时遇到了麻烦。
我在Mike McCandless Original Project ( GoogleCode ) 中遇到了一些类似的问题,但后来我在同一个项目( github ) 上发现了 Matt Sanford 的分支。出于这个问题的目的,我将专注于 Matts 项目,因为它似乎已经更频繁地更新(但很高兴得到适用于任一项目的答案)。
- 将项目下载为 zip,并解压缩到我的本地驱动器。
- 从 CMD 运行 vcvarsall.bat
- 然后运行 build.win.cmd 批处理文件。这运行正常。
- 将生成的 libcld.lib 复制到 ports/python/cld.lib
尝试运行setup.py但它在第 12 行返回以下内容。
exceptions.TypeError: init () 关键字必须是字符串
++EDIT++ 发现这个问题:
setup.py 在 Windows 上失败。解决这个问题的黑客解决方案是让 pkgconfig 返回字典 {'define_macros': [('WIN32',None)], 'libraries': packages}
我有点菜鸟,但不完全确定实施此 hack 的步骤。谁能给我一些稍微详细一点的步骤?
spam-prevention - 如何检测文本是否为给定语言?
我有一个问答网站(非常近似),用户可以在其中输入问题以由我们的员工回答。我非常担心用户发布非问题,这是一种烦恼。到目前为止,我认为最好的方法是检测文本是否为意大利语(我们用户的语言)的系统,如果是,则根据常见的复制粘贴列表检查它是否不是复制粘贴。
所以,长话短说:用户会输入一些文本,我必须确保这是一个正确的意大利语问题,而不是随机字符。