Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 tweepy 为一个项目流式传输和捕获有关名人的推文,并意识到一半的数据不是英文的(我现在需要它是英文的以便分析)。那么有没有一种方法可以根据推文的语言过滤流媒体,或者以某种方式放大类似的过滤器?
不幸的是,流数据不包含 ISO 语言代码,所以我认为唯一的方法是直接检测语言(这个答案可能会有所帮助)。根据您正在流式传输的数据量,您可能希望先存储数据,然后再进行第二个过程来检测语言并丢弃所有您不想要的语言。