0

Ok, maybe this question is bizarre, but I'm planing to write a crawler for pages in Lithuanian only and I'm trying to estimate how much of data that would be (and therefore how long would that take). Perhaps someone else has similar experience?

4

1 回答 1

1

通过查看一些统计数据可以做出非常粗略的估计:

所以如果你给世界上每个国家一个互联网页面的比例所有权(这不是一个正确的假设,但它应该是一个有用的假设),那么 1 万亿页面中的 0.04% 是立陶宛的 4 亿个页面。

4 亿 * 320KB = 119.20929 TB

如果您压缩页面并假设 4:1 压缩的最佳情况,那么您将看到大约 30 TB。我仍然会说您需要 120 TB 的数据才能确保安全。如果您假设当前价格约为每 TB 100 美元,那么仅在硬盘驱动器中存储这些数据就需要 3,000 到 12,000 美元。

现在,最大的问题是:您真的需要所有这些数据吗?

于 2013-03-20T15:56:29.727 回答