1

我正在开展一个项目,该项目需要计算满足查询参数的推文数量。我在 Python 中工作,使用 Twython 作为我的 Twitter 界面。

不过有几个问题,你如何记录哪些推文已经被计算在内?你会简单地记下最后一条推文 ID 并忽略它以及之前的所有推文吗?--这个最简单的实现是什么?

作为另一个优化问题,我想确保计数器错过的推文数量最少,有什么方法可以确保这一点?

非常感谢。

4

2 回答 2

1

您可以考虑使用套装!他们防止重复。

一些伪代码:

s = set()
for tweet in tweets:
   s.add(tweet.id)
于 2012-11-07T01:08:35.807 回答
0

考虑到类似推文和转发的情况,我建议对整条推文进行语义注释,提取每条推文的文本部分并进行字典查找。但是 tweet id 更简单,损失很大,用法如上所述。

于 2013-05-16T03:06:56.400 回答