问题标签 [language-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - Solr 中的语言检测
我有一些不同语言的文档,我让 Solr 检测它们的语言并为它们编制索引,所以我添加了以下配置solrconfig.xml
:
我想在 , 旁边的字段中查看检测到的语言,一旦id
我向Solr发送一般查询, 。以下是我得到的结果示例:content
content_type
__version__
*:*
我是否遗漏了language_s
在显示的字段中看不到字段的内容?
solr - 在 Solr 中为 `_default` 添加语言检测
我正在研究 Solr 7.3,我有一个“索引工作”,它是一个黑盒子(不能看里面)。_default
带有配置的“索引作业”的输出是这样的:
我添加了LangDetectLanguageIdentifierUpdateProcessorFactory
类来_default
检测语言并将其显示language_s
在其他字段旁边:
我还将“langid”添加到initParams
:
总而言之,在添加langid
并运行“索引作业”之后,我什么也没得到:
有没有办法在不触及“索引作业”的情况下解决这个问题?我在配置文件中遗漏了什么吗?
java - 如何解决以下代码中的 java.lang.NoClassDefFoundError?
我是 NLP 和 JAVA 的新手。最近我开始研究语言检测,我从如何检测用户输入文本的语言中得到了一个代码?. 我正在使用 NetBeans 8.2 并在其中复制了以下代码:
}
“profiles”文件夹,我只是从github(https://github.com/shuyo/language-detection)下载并简单地给出了“profileDirectory”中的路径
我收到的错误是:
我还将所需的 jar 文件添加到库中(http://www.java2s.com/Code/Jar/l/Downloadlangdetectjar.htm)因为我是 JAVA 新手,所以我不明白为什么会出现这个错误。谁能帮我解决错误并使代码正常工作?
python - 如何使用 os.walk 或 glob.glob 获取目录中所有类型的文件扩展名
我有一个代码可以检测目录中文件的语言。但是,在提到扩展名的类型时,我如何检测目录中所有文件扩展名的语言(例如:- .pdf、.xlsx、.docx 等),而不仅仅是代码中提到的 .txt 文件。附上代码供参考。我想知道如何使用 glob 和 os.walk 来做到这一点。
python - 如何检测数据框对象的语言?
我想在我的数据框审查中创建一个新列,给出对象类型的列文本的语言。
我尝试转换为字符串,然后使用 langdetect 中的检测函数,但是当我运行代码时仍然存在类型错误。
我不明白这个问题大声笑
我的代码:
实际结果 :
android - 如何使用 TextClassificationManager 检测语言
TextClassificationManager
可从API-26
. 它的公共方法可用于对文本进行分类。我的要求是我需要离线检测来自给予者文本的语言。
TextClassificationManager
也有detectLanguages()
方法,但它是隐藏的。我可以TextClassificationManager
用来检测语言吗?
我搜索了一下,我发现这个项目使用TextClassificationManager
反射。但是它会抛出NoSuchMethodErrror
并返回..所以如果有人TextClassificationManager
为此目的使用过可以帮助我。
python - Textblob - HTTPError:HTTP 错误 429:请求过多
我有一个数据框,其中一列的每一行都有一个字符串列表。
平均而言,每个列表有 150 个单词,每个单词大约 6 个字符。
数据框的 700 行中的每一行都是关于一个文档的,每个字符串都是该文档的一个单词;所以基本上我已经标记了文件的文字。
我想检测每个文档的语言,为此我首先尝试检测文档中每个单词的语言。
出于这个原因,我执行以下操作:
当我这样做时,我收到以下错误:
错误要长得多,我在中间省略了其余部分。
现在,即使我尝试仅对两个文档/行执行此操作,我也会遇到相同的错误。
有什么方法可以让我得到textblob
更多文字和文件的回复?
python - Polyglot 未检测到多种语言
我正在polyglot
用 Python 测试包以检测混合语言文档中的语言。
我并不期望它得到最准确的预测,但从包开始不会返回任何东西,而是一种语言作为答案,即使对于其中包含 2 或 3 种语言的文本也是如此。
我使用的文本平均有 20 个单词,例如:
我总是得到类似以下的东西 - 没有多种语言的答案:
它与文档中的示例相去甚远:
尽管老实说,当我使用上面的中英文示例运行检测器时,我确实得到了混合语言的答案。
代码如下:
为什么会这样?
附言
此外,在检测一个(甚至是非常常见的)单词的语言的情况下polyglot
是非常糟糕的。
例如,对于单词quantita
(意大利语),它会返回英语。
我知道这些软件包中的许多在拥有大文本时主要是成功的,但令人惊讶的是它们甚至无法捕捉这些简单的单词。
Textblob
似乎对单个单词也很好,但是您可以向它发送非常有限数量的请求(在这两种情况下,可能是因为它使用了 Google API)。
marklogic - 如何解释 xdmp:encoding-language-detect 的结果?
我正在对许多文档运行 xdmp:encoding-language-detect 并获得如下结果。这些肯定是英文的,比文档建议的“几百字节”大得多,以便进行良好的检测。
它检测三种语言:英语、希腊语和祖鲁语。以这个顺序,但随着分数的增加。
文档说:
10 分及以上的分数是高置信度建议。结果按分数递减的顺序给出。短文档的准确性可能很差。
所以我很困惑。我是否应该假设第一场比赛是最有可能的一场(尽管在这种情况下它的分数 < 10)?更高的分数不一定意味着更可靠的匹配吗?