我正在创建一个用于检测短文本语言的应用程序,平均少于 100 个字符并包含俚语(例如推文、用户查询、短信)。
我测试的所有库都适用于普通网页,但不适用于非常短的文本。迄今为止提供最佳结果的库是 Chrome 的语言检测 (CLD) 库,我必须将其构建为共享库。
当文本由非常短的单词组成时,CLD 会失败。在查看 CLD 的源代码后,我发现它使用 4-gram,这可能是原因。
我现在正在考虑的提高准确性的方法是:
- 删除品牌名称、数字、网址和“软件”、“下载”、“互联网”等词
- 使用字典 当文本包含多个超过阈值的短单词或包含的单词太少时。
- 该词典是根据维基百科新闻文章 + hunspell 词典创建的。
什么数据集最适合这项任务?我该如何改进这种方法?
到目前为止,我正在使用 EUROPARL 和 Wikipedia 文章。我在大部分工作中都使用 NLTK。