2

根据这个错误,Twitter 的搜索 API 在语言方面已经被破坏了至少 2 年:http ://bit.ly/GQ244g所以他们似乎不太可能修复它。

我查看了其他语言检测线程中提到的库,它们看起来都很棒并且提供了 95% 以上的准确率。问题是,哪一个用于推文?

我怀疑推文可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关心的是性能。如果我可以更快地执行过滤,我不介意丢失一些推文。

所以我的问题是针对那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?

4

4 回答 4

2

您是否尝试过语言检测?它声称 53 种语言的精度达到 99%。但是,鉴于推文通常很短,恐怕您只能梦想如此高精度......您应该尝试从 twitter 训练数据中生成自己的语言配置文件,并尽可能使用语言子集(您需要对此做一些研究)。我对性能了解不多,如果您可以编写自己的测试可能会更好。

编辑:也看看这个 Python 项目,您可能想尝试与您的 java 代码库进行一些集成:https ://github.com/shuyo/ldig

于 2013-11-01T01:37:27.160 回答
2

看看 Apache Tika。除了语言检测之外,它还可以用于许多其他事情:

http://tika.apache.org/1.5/detection.html#Language_Detection

于 2014-08-17T07:12:11.083 回答
1

您可以使用来自 Java 的 Microsoft 翻译器网络服务。https://datamarket.azure.com/dataset/1899a118-d202-492c-aa16-ba21c33c06cb(每月免费提供 2.000.000 字并提供语言检测)

于 2012-03-24T20:09:25.160 回答
1

您应该使用JLangDetect。我不能推荐任何比这更多的东西。

于 2013-06-23T22:03:28.703 回答