问题标签 [language-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
523 浏览

solr - Solr 中的语言检测

我有一些不同语言的文档,我让 Solr 检测它们的语言并为它们编制索引,所以我添加了以下配置solrconfig.xml

我想在 , 旁边的字段中查看检测到的语言,一旦id我向Solr发送一般查询, 。以下是我得到的结果示例:contentcontent_type__version__*:*

我是否遗漏了language_s在显示的字段中看不到字段的内容?

0 投票
0 回答
68 浏览

solr - 在 Solr 中为 `_default` 添加语言检测

我正在研究 Solr 7.3,我有一个“索引工作”,它是一个黑盒子(不能看里面)。_default带有配置的“索引作业”的输出是这样的:

我添加了LangDetectLanguageIdentifierUpdateProcessorFactory类来_default检测语言并将其显示language_s在其他字段旁边:

我还将“langid”添加到initParams

总而言之,在添加langid并运行“索引作业”之后,我什么也没得到:

有没有办法在不触及“索引作业”的情况下解决这个问题?我在配置文件中遗漏了什么吗?

0 投票
1 回答
3638 浏览

java - 如何解决以下代码中的 java.lang.NoClassDefFoundError?

我是 NLP 和 JAVA 的新手。最近我开始研究语言检测,我从如何检测用户输入文本的语言中得到了一个代码?. 我正在使用 NetBeans 8.2 并在其中复制了以下代码:

}

“profiles”文件夹,我只是从github(https://github.com/shuyo/language-detection)下载并简单地给出了“profileDirectory”中的路径

我收到的错误是:

我还将所需的 jar 文件添加到库中(http://www.java2s.com/Code/Jar/l/Downloadlangdetectjar.htm)因为我是 JAVA 新手,所以我不明白为什么会出现这个错误。谁能帮我解决错误并使代码正常工作?

0 投票
1 回答
77 浏览

python - 如何使用 os.walk 或 glob.glob 获取目录中所有类型的文件扩展名

我有一个代码可以检测目录中文件的语言。但是,在提到扩展名的类型时,我如何检测目录中所有文件扩展名的语言(例如:- .pdf、.xlsx、.docx 等),而不仅仅是代码中提到的 .txt 文件。附上代码供参考。我想知道如何使用 glob 和 os.walk 来做到这一点。

0 投票
0 回答
861 浏览

language-detection - 将 CLD2 的语言检测分数转换为 CLD3 准确度

我的cld2语言检测模型 (langID) 返回输入句子以对以下值进行分类

其中textBytes表示输入文本的大小,表示句子中percent的分布,而表示检测质量的指标(越小越好)。也就是说,在全新的CLD3神经网络中,分类的结果就是准确率(所以是一个介于 0 和 1 之间的概率值),就像codescore

我想弄清楚如何将 CLD2 分数转换为概率值,以便将结果与新的 CLD3 模型进行比较。

0 投票
3 回答
2594 浏览

python - 如何检测数据框对象的语言?

我想在我的数据框审查中创建一个新列,给出对象类型的列文本的语言。

我尝试转换为字符串,然后使用 langdetect 中的检测函数,但是当我运行代码时仍然存在类型错误。

我不明白这个问题大声笑

我的代码:

实际结果 :

0 投票
1 回答
162 浏览

android - 如何使用 TextClassificationManager 检测语言

TextClassificationManager可从API-26. 它的公共方法可用于对文本进行分类。我的要求是我需要离线检测来自给予者文本的语言。 TextClassificationManager 也有detectLanguages()方法,但它是隐藏的。我可以TextClassificationManager用来检测语言吗?

我搜索了一下,我发现这个项目使用TextClassificationManager反射。但是它会抛出NoSuchMethodErrror并返回..所以如果有人TextClassificationManager为此目的使用过可以帮助我。

0 投票
2 回答
10729 浏览

python - Textblob - HTTPError:HTTP 错误 429:请求过多

我有一个数据框,其中一列的每一行都有一个字符串列表。

平均而言,每个列表有 150 个单词,每个单词大约 6 个字符。

数据框的 700 行中的每一行都是关于一个文档的,每个字符串都是该文档的一个单词;所以基本上我已经标记了文件的文字。

我想检测每个文档的语言,为此我首先尝试检测文档中每个单词的语言。

出于这个原因,我执行以下操作:

当我这样做时,我收到以下错误:

错误要长得多,我在中间省略了其余部分。

现在,即使我尝试仅对两个文档/行执行此操作,我也会遇到相同的错误。

有什么方法可以让我得到textblob更多文字和文件的回复?

0 投票
1 回答
545 浏览

python - Polyglot 未检测到多种语言

我正在polyglot用 Python 测试包以检测混合语言文档中的语言。

我并不期望它得到最准确的预测,但从包开始不会返回任何东西,而是一种语言作为答案,即使对于其中包含 2 或 3 种语言的文本也是如此。

我使用的文本平均有 20 个单词,例如:

我总是得到类似以下的东西 - 没有多种语言的答案:

它与文档中的示例相去甚远:

尽管老实说,当我使用上面的中英文示例运行检测器时,我确实得到了混合语言的答案。

代码如下:

为什么会这样?

附言

此外,在检测一个(甚至是非常常见的)单词的语言的情况下polyglot是非常糟糕的。 例如,对于单词quantita(意大利语),它会返回英语。

我知道这些软件包中的许多在拥有大文本时主要是成功的,但令人惊讶的是它们甚至无法捕捉这些简单的单词。

Textblob似乎对单个单词也很好,但是您可以向它发送非常有限数量的请求(在这两种情况下,可能是因为它使用了 Google API)。

0 投票
0 回答
51 浏览

marklogic - 如何解释 xdmp:encoding-language-detect 的结果?

我正在对许多文档运行 xdmp:encoding-language-detect 并获得如下结果。这些肯定是英文的,比文档建议的“几百字节”大得多,以便进行良好的检测。

它检测三种语言:英语、希腊语和祖鲁语。以这个顺序,但随着分数的增加。

文档说:

10 分及以上的分数是高置信度建议。结果按分数递减的顺序给出。短文档的准确性可能很差。

所以我很困惑。我是否应该假设第一场比赛是最有可能的一场(尽管在这种情况下它的分数 < 10)?更高的分数不一定意味着更可靠的匹配吗?