根据这个错误,Twitter 的搜索 API 在语言方面已经被破坏了至少 2 年:http ://bit.ly/GQ244g所以他们似乎不太可能修复它。
我查看了其他语言检测线程中提到的库,它们看起来都很棒并且提供了 95% 以上的准确率。问题是,哪一个用于推文?
我怀疑推文可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关心的是性能。如果我可以更快地执行过滤,我不介意丢失一些推文。
所以我的问题是针对那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?