我已经为使用 php/Mysql 的客户端构建了 RSS、twitter 和其他内容聚合器。它通常涉及一项 cron 作业、一些提要解析和将数据插入数据库以进行存储和稍后重新发布、删除或存档等。没有什么突破性的。
但现在我的任务是为公众构建聚合服务。我想这需要快速扩展,因为每个有权访问该服务的人都可以添加数十个(如果不是数百个)源提要。在几个月内,我们可能会定期解析 1000 个提要,一年内可能会解析 100,000 个提要,如果运气好的话,可能会更多。
我想最终的模型类似于谷歌阅读器所做的。
那么,有什么好的策略呢?多个重叠的 crons、持续运行和阅读提要并连接到 API 以提取内容?我应该计划运行多个 Elastic Cloud 实例还是随着需求的增长而运行?