根据这个错误,Twitter 的搜索 API 在语言方面已经被破坏了至少 2 年:http ://bit.ly/GQ244g所以他们似乎不太可能修复它。
我查看了其他语言检测线程中提到的库,它们看起来都很棒并且提供了 95% 以上的准确率。问题是,哪一个用于推文?
我怀疑推文可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关心的是性能。如果我可以更快地执行过滤,我不介意丢失一些推文。
所以我的问题是针对那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?
根据这个错误,Twitter 的搜索 API 在语言方面已经被破坏了至少 2 年:http ://bit.ly/GQ244g所以他们似乎不太可能修复它。
我查看了其他语言检测线程中提到的库,它们看起来都很棒并且提供了 95% 以上的准确率。问题是,哪一个用于推文?
我怀疑推文可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关心的是性能。如果我可以更快地执行过滤,我不介意丢失一些推文。
所以我的问题是针对那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?
您是否尝试过语言检测?它声称 53 种语言的精度达到 99%。但是,鉴于推文通常很短,恐怕您只能梦想如此高精度......您应该尝试从 twitter 训练数据中生成自己的语言配置文件,并尽可能使用语言子集(您需要对此做一些研究)。我对性能了解不多,如果您可以编写自己的测试可能会更好。
编辑:也看看这个 Python 项目,您可能想尝试与您的 java 代码库进行一些集成:https ://github.com/shuyo/ldig
看看 Apache Tika。除了语言检测之外,它还可以用于许多其他事情:
http://tika.apache.org/1.5/detection.html#Language_Detection
您可以使用来自 Java 的 Microsoft 翻译器网络服务。https://datamarket.azure.com/dataset/1899a118-d202-492c-aa16-ba21c33c06cb(每月免费提供 2.000.000 字并提供语言检测)
您应该使用JLangDetect。我不能推荐任何比这更多的东西。