python - 铬紧凑语言检测器 Django

Question

我正在使用 chromium-compact-language-detector 来检测语言，但它无法在字符串中检测到日语。

text = '1/15 HR Div.Q&CS Dept. 全体MTG 開催
1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ' 

cld.detect(smart_str(text), pickSummaryLanguage=True, removeWeakMatches=False)

output: ('ENGLISH', 'en', True, 11, [('ENGLISH', 'en', 100, 0.8103727714748784)])

建议表示赞赏。

score 0 · Accepted Answer

您可能需要首先将该日文字符串编码为 UTF8，例如。尝试这个：

import codecs
import cld
cld.detect(codecs.getencoder('UTF-8')(u'1/15 HR Div.Q&CS Dept. 全体MTG 開催1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ')[0])

我认为cld无法检测到日语 lang 。它的新版本称为cld2. 在这里检查：https://code.google.com/p/cld2/wiki/CLD2FullVersion

python - 铬紧凑语言检测器 Django

1 回答 1

Related

Reference