amazon-web-services - 我应该使用什么数据存储来存储来自爬虫的临时数据？

Question

我的爬虫正在爬取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理 URL 并将它们存储在 Amazon RDS 中。

我的问题是我应该使用什么数据存储来存储数据以进行清理（删除不需要的 URL）。我不希望爬虫撞击 Amazon RDS，这会减慢它的速度。

我应该使用 Amazon SimpleDB 吗？然后我可以从 SimpleDB 中读取数据，清理 URL 并将其移动到 Amazon RDS。

score 1 · Accepted Answer

您始终可以使用数据库，但问题在于磁盘访问。每次您进行磁盘访问以读取一堆 URL 时都会对其进行清理，然后再次将它们写入另一个数据库，这是另一个磁盘访问。如果您不关心性能，这个过程是可以的。

一种解决方案是您可以使用任何简单的数据结构，例如列表、存储一堆或 URL，当列表达到阈值时，该线程会唤醒并清理 URL，然后您可以将这些 URL 写入 Amazon RDS。

1 回答 1