“language-detection”的相关标签问题

0 投票

0 回答

523 浏览

solr - Solr 中的语言检测

我有一些不同语言的文档，我让 Solr 检测它们的语言并为它们编制索引，所以我添加了以下配置solrconfig.xml：

我想在 , 旁边的字段中查看检测到的语言，一旦id我向Solr发送一般查询，。以下是我得到的结果示例：contentcontent_type__version__*:*

我是否遗漏了language_s在显示的字段中看不到字段的内容？

2018-08-02T17:35:05.490

0 投票

0 回答

68 浏览

solr - 在 Solr 中为 `_default` 添加语言检测

我正在研究 Solr 7.3，我有一个“索引工作”，它是一个黑盒子（不能看里面）。_default带有配置的“索引作业”的输出是这样的：

我添加了LangDetectLanguageIdentifierUpdateProcessorFactory类来_default检测语言并将其显示language_s在其他字段旁边：

我还将“langid”添加到initParams：

总而言之，在添加langid并运行“索引作业”之后，我什么也没得到：

有没有办法在不触及“索引作业”的情况下解决这个问题？我在配置文件中遗漏了什么吗？

solr schema language-detection

2018-08-09T17:15:24.063

0 投票

1 回答

3638 浏览

java - 如何解决以下代码中的 java.lang.NoClassDefFoundError？

我是 NLP 和 JAVA 的新手。最近我开始研究语言检测，我从如何检测用户输入文本的语言中得到了一个代码？. 我正在使用 NetBeans 8.2 并在其中复制了以下代码：

}

“profiles”文件夹，我只是从github（https://github.com/shuyo/language-detection）下载并简单地给出了“profileDirectory”中的路径

我收到的错误是：

我还将所需的 jar 文件添加到库中（http://www.java2s.com/Code/Jar/l/Downloadlangdetectjar.htm）因为我是 JAVA 新手，所以我不明白为什么会出现这个错误。谁能帮我解决错误并使代码正常工作？

java noclassdeffounderror language-detection

2019-02-11T06:21:10.727

0 投票

1 回答

77 浏览

python - 如何使用 os.walk 或 glob.glob 获取目录中所有类型的文件扩展名

我有一个代码可以检测目录中文件的语言。但是，在提到扩展名的类型时，我如何检测目录中所有文件扩展名的语言（例如：- .pdf、.xlsx、.docx 等），而不仅仅是代码中提到的 .txt 文件。附上代码供参考。我想知道如何使用 glob 和 os.walk 来做到这一点。

python file-extension os.walk language-detection

2019-03-14T16:39:50.107

0 投票

0 回答

861 浏览

language-detection - 将 CLD2 的语言检测分数转换为 CLD3 准确度

我的cld2语言检测模型 (langID) 返回输入句子以对以下值进行分类

其中textBytes表示输入文本的大小，表示句子中percent的分布，而表示检测质量的指标（越小越好）。也就是说，在全新的CLD3神经网络中，分类的结果就是准确率（所以是一个介于 0 和 1 之间的概率值），就像codescore

我想弄清楚如何将 CLD2 分数转换为概率值，以便将结果与新的 CLD3 模型进行比较。

language-detection cld2 cld3

2019-03-15T15:58:25.687

0 投票

3 回答

2594 浏览

python - 如何检测数据框对象的语言？

我想在我的数据框审查中创建一个新列，给出对象类型的列文本的语言。

我尝试转换为字符串，然后使用 langdetect 中的检测函数，但是当我运行代码时仍然存在类型错误。

我不明白这个问题大声笑

我的代码：

实际结果：

python typeerror language-detection

2019-05-04T15:09:58.823

0 投票

1 回答

162 浏览

android - 如何使用 TextClassificationManager 检测语言

TextClassificationManager可从API-26. 它的公共方法可用于对文本进行分类。我的要求是我需要离线检测来自给予者文本的语言。 TextClassificationManager 也有detectLanguages()方法，但它是隐藏的。我可以TextClassificationManager用来检测语言吗？

我搜索了一下，我发现这个项目使用TextClassificationManager反射。但是它会抛出NoSuchMethodErrror并返回..所以如果有人TextClassificationManager为此目的使用过可以帮助我。

android language-detection

2019-05-09T07:53:23.190

0 投票

2 回答

10729 浏览

python - Textblob - HTTPError：HTTP 错误 429：请求过多

我有一个数据框，其中一列的每一行都有一个字符串列表。

平均而言，每个列表有 150 个单词，每个单词大约 6 个字符。

数据框的 700 行中的每一行都是关于一个文档的，每个字符串都是该文档的一个单词；所以基本上我已经标记了文件的文字。

我想检测每个文档的语言，为此我首先尝试检测文档中每个单词的语言。

出于这个原因，我执行以下操作：

当我这样做时，我收到以下错误：

错误要长得多，我在中间省略了其余部分。

现在，即使我尝试仅对两个文档/行执行此操作，我也会遇到相同的错误。

有什么方法可以让我得到textblob更多文字和文件的回复？

python textblob language-detection

2019-05-17T15:00:44.867

0 投票

1 回答

545 浏览

python - Polyglot 未检测到多种语言

我正在polyglot用 Python 测试包以检测混合语言文档中的语言。

我并不期望它得到最准确的预测，但从包开始不会返回任何东西，而是一种语言作为答案，即使对于其中包含 2 或 3 种语言的文本也是如此。

我使用的文本平均有 20 个单词，例如：

我总是得到类似以下的东西 - 没有多种语言的答案：

它与文档中的示例相去甚远：

尽管老实说，当我使用上面的中英文示例运行检测器时，我确实得到了混合语言的答案。

代码如下：

为什么会这样？

附言

此外，在检测一个（甚至是非常常见的）单词的语言的情况下polyglot是非常糟糕的。 例如，对于单词quantita（意大利语），它会返回英语。

我知道这些软件包中的许多在拥有大文本时主要是成功的，但令人惊讶的是它们甚至无法捕捉这些简单的单词。

Textblob似乎对单个单词也很好，但是您可以向它发送非常有限数量的请求（在这两种情况下，可能是因为它使用了 Google API）。

python language-detection polyglot

2019-05-20T09:44:42.367

0 投票

0 回答

51 浏览

marklogic - 如何解释 xdmp:encoding-language-detect 的结果？

我正在对许多文档运行 xdmp:encoding-language-detect 并获得如下结果。这些肯定是英文的，比文档建议的“几百字节”大得多，以便进行良好的检测。

它检测三种语言：英语、希腊语和祖鲁语。以这个顺序，但随着分数的增加。

文档说：

10 分及以上的分数是高置信度建议。结果按分数递减的顺序给出。短文档的准确性可能很差。

所以我很困惑。我是否应该假设第一场比赛是最有可能的一场（尽管在这种情况下它的分数 < 10）？更高的分数不一定意味着更可靠的匹配吗？

marklogic marklogic-9 language-detection

2019-08-29T14:40:28.880

问题标签 [language-detection]

Reference