3

我的爬虫正在爬取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理 URL 并将它们存储在 Amazon RDS 中。

我的问题是我应该使用什么数据存储来存储数据以进行清理(删除不需要的 URL)。我不希望爬虫撞击 Amazon RDS,这会减慢它的速度。

我应该使用 Amazon SimpleDB 吗?然后我可以从 SimpleDB 中读取数据,清理 URL 并将其移动到 Amazon RDS。

4

1 回答 1

1

您始终可以使用数据库,但问题在于磁盘访问。每次您进行磁盘访问以读取一堆 URL 时都会对其进行清理,然后再次将它们写入另一个数据库,这是另一个磁盘访问。如果您不关心性能,这个过程是可以的。

一种解决方案是您可以使用任何简单的数据结构,例如列表、存储一堆或 URL,当列表达到阈值时,该线程会唤醒并清理 URL,然后您可以将这些 URL 写入 Amazon RDS。

于 2011-07-12T18:25:56.213 回答