0

我正在使用 tweepy 为一个项目流式传输和捕获有关名人的推文,并意识到一半的数据不是英文的(我现在需要它是英文的以便分析)。那么有没有一种方法可以根据推文的语言过滤流媒体,或者以某种方式放大类似的过滤器?

4

1 回答 1

0

不幸的是,流数据不包含 ISO 语言代码,所以我认为唯一的方法是直接检测语言(这个答案可能会有所帮助)。根据您正在流式传输的数据量,您可能希望先存储数据,然后再进行第二个过程来检测语言并丢弃所有您不想要的语言。

于 2012-10-17T11:27:27.270 回答