我将在几个月内从 EC2 抓取数百万个 URL,我正在考虑应该将这些数据存储在哪里。我的最终目标是分析它,但分析可能不会立即进行(即使我现在出于其他原因想抓取它),我可能希望最终将数据副本传输出去以存储在我拥有的本地设备上. 我估计数据将在 5TB 左右。
我的问题:我正在考虑为此使用 Glacier,我的想法是我将运行一个多线程爬虫,将爬取的页面存储在本地(在 EB 上),然后使用一个单独的线程来组合、压缩并将数据传送到 Glacier。我知道 Glacier 上的传输速度不一定很好,但由于这个过程没有在线元素,这似乎是可行的(尤其是因为我总是可以增加本地 EBS 卷的大小,以防我爬得比我更快存储到冰川)。
我的方法是否存在缺陷,或者任何人都可以提出一种更具成本效益、更可靠的方法来做到这一点?
谢谢!