python - 如何从查询中计算推文而不重复计算？

Question

我正在开展一个项目，该项目需要计算满足查询参数的推文数量。我在 Python 中工作，使用 Twython 作为我的 Twitter 界面。

不过有几个问题，你如何记录哪些推文已经被计算在内？你会简单地记下最后一条推文 ID 并忽略它以及之前的所有推文吗？--这个最简单的实现是什么？

作为另一个优化问题，我想确保计数器错过的推文数量最少，有什么方法可以确保这一点？

非常感谢。

score 1 · Accepted Answer

您可以考虑使用套装！他们防止重复。

一些伪代码：

s = set()
for tweet in tweets:
   s.add(tweet.id)

score 0 · Accepted Answer

考虑到类似推文和转发的情况，我建议对整条推文进行语义注释，提取每条推文的文本部分并进行字典查找。但是 tweet id 更简单，损失很大，用法如上所述。

2 回答 2