Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我目前有一个 cron 作业,它使用每分钟运行的 Twitter 搜索 API,但这将我限制为每个请求只有 100 个结果,我希望开始使用流 API,但担心这会进一步增加服务器负载(我目前使用共享主机,我的 cron 工作已经引发了一些危险信号)。
我的问题是,为了在没有任何积压数据的情况下充分捕获流式 API 数据,我应该获得的服务器的最低规格是多少?
我使用过并且也看到过其他人这样做的一种设计是使用消息队列。通过专用于该目的的线程将推文加载到队列中。然后,您可以在队列的另一端有另一个线程读取推文并根据需要进行处理。这是我正在谈论的一个很好的例子:
http://www.laurentluce.com/posts/python-twitter-statistics-and-the-2012-french-presidential-election/
没有足够的分析,没有人可以告诉你,你的规格应该是什么。正如对您问题的评论之一所建议的那样,您将得到的最接近的答案是尝试一下。一般来说,对你想做的事情做一个快速的原型,看看效果是什么,并根据需要进行测量。同样,这里有许多架构原则在起作用,所以有人告诉你应该做什么甚至是不明智的。
乔