nlp - 非常短文本的语言检测

Question

我正在创建一个用于检测短文本语言的应用程序，平均少于 100 个字符并包含俚语（例如推文、用户查询、短信）。

我测试的所有库都适用于普通网页，但不适用于非常短的文本。迄今为止提供最佳结果的库是 Chrome 的语言检测 (CLD) 库，我必须将其构建为共享库。

当文本由非常短的单词组成时，CLD 会失败。在查看 CLD 的源代码后，我发现它使用 4-gram，这可能是原因。

我现在正在考虑的提高准确性的方法是：

什么数据集最适合这项任务？我该如何改进这种方法？

到目前为止，我正在使用 EUROPARL 和 Wikipedia 文章。我在大部分工作中都使用 NLTK。

score 6 · Accepted Answer

极短文本的语言检测是当前研究的主题，因此无法给出确凿的答案。Twitter 数据的算法可以在Carter、Tsagkias 和 Weerkamp 2011中找到。另请参阅那里的参考资料。

score 5 · Accepted Answer

是的，这是一个研究课题，并且已经取得了一些进展。

例如，http://code.google.com/p/language-detection/上“语言检测”的作者为短消息创建了新的配置文件。目前，它支持 17 种语言。

我在大约 500 条推文的集合中将它与 Bing 语言检测器进行了比较，这些推文大多是英语和西班牙语。准确度如下：

   Bing = 71.97%
   Language-Detection Tool with new profiles = 89.75%

score -2 · Accepted Answer

也省略科学名称或药物名称等。你的方法对我来说似乎很好。我认为维基百科是创建字典的最佳选择，因为它包含标准语言。如果你没有时间用完，你也可以使用报纸。

3 回答 3