我将使用 twitter 流 API 来设置真正的实时流,方法是在推文进入时将推文推送到 SQL 数据库中,然后根据需要随时从我的数据库中提取。这将使我能够在一定程度上绕过速率限制,而不会将自己列入黑名单。我在这里找到了这个方法。
我将跟踪信息流中的多个关键字(不超过 15 个)
stream.twitter.com/whatever?q=word1 OR word2 OR word3 OR ...
当我存储这些时,最好将它们全部转储到一张大表中,还是通过关键字将它们拼凑出来?我不确定这是否归结为偏好,或者一种方法是否比另一种更好。
我认为最终归结为对它们进行预处理以将它们放入正确的关键字表中,或者从大量表中对它们进行后处理以选择关键字 =“word1”等的那些。
从优化的角度来看,有什么想法会更好吗?