nlp - 使用哪些方法来识别文本所用的语言？

Question

如果我有给定的文本（无论是长文本还是短文本），您通常使用哪些方法检测它是用哪种语言编写的？

很清楚：

我最容易想到的是：

但我想还有更好的方法可以走。我不是在寻找现有的项目（这些问题已经得到解答），而是在寻找像 Hidden-Markov-Models、Neural Networks 之类的方法……任何可能用于此任务的方法。

score 2 · Accepted Answer

在我正在开发的产品中，我们使用基于字典的方法。计算训练语料库中所有单词的第一个相对概率，并将其存储为模型。

然后逐字处理输入文本以查看特定模型是否提供最佳匹配（比其他模型好得多）。

在某些情况下，所有模型都提供了非常糟糕的匹配。

几个有趣的点：

此外，为了更好地检测，我们正在考虑添加您所描述的每个字符模型（某些语言具有某些独特的字符）

顺便说一句，我们使用 ICU 库来拆分单词。适用于欧洲和东方语言（目前我们支持中文）

score 0 · Accepted Answer

0

检查Cavnar 和 Trenkle算法。

于 2012-05-18T17:16:30.500 回答

2 回答 2