java - 使用 java langdetect 库的日语检测

Question

我在使用java 库对日语进行语言检测时遇到问题：

使用日文文本，我试图检测它的文本语言，但我得到的不是预期的“ja”，而是“en”。以前有人见过这个问题吗？

什么是预期的输出？

[ja:0.9999952022259697]

你看到了什么呢？

[en:0.9999952022259697]

附件中带有日语文本的原始问题描述，您可以在此处找到

score 1 · Accepted Answer

这几乎可以肯定是与输入文件的编码有关的问题（如果该文件完全包含日语——我不相信它确实如此）。

您链接到的 Java 库假定 - 根据文档 - 输入作为String对象给出。这意味着它假设编码已经被正确猜测并且输入字节序列被转换为Java 字符串。

当您使用该库时，您必须确保是这种情况，即如果您正在处理未知编码的文本（例如日文 EUC-JP 或 SJIS），您必须先检测编码并正确转换字符串。

（由于这些原因，好的语言检测器能够通过使用特定于语言和编码的内部字典同时检测编码和语言。）

1 回答 1