Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在开展一个项目,该项目需要计算满足查询参数的推文数量。我在 Python 中工作,使用 Twython 作为我的 Twitter 界面。
不过有几个问题,你如何记录哪些推文已经被计算在内?你会简单地记下最后一条推文 ID 并忽略它以及之前的所有推文吗?--这个最简单的实现是什么?
作为另一个优化问题,我想确保计数器错过的推文数量最少,有什么方法可以确保这一点?
非常感谢。
您可以考虑使用套装!他们防止重复。
一些伪代码:
s = set() for tweet in tweets: s.add(tweet.id)
考虑到类似推文和转发的情况,我建议对整条推文进行语义注释,提取每条推文的文本部分并进行字典查找。但是 tweet id 更简单,损失很大,用法如上所述。