我的爬虫正在爬取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理 URL 并将它们存储在 Amazon RDS 中。
我的问题是我应该使用什么数据存储来存储数据以进行清理(删除不需要的 URL)。我不希望爬虫撞击 Amazon RDS,这会减慢它的速度。
我应该使用 Amazon SimpleDB 吗?然后我可以从 SimpleDB 中读取数据,清理 URL 并将其移动到 Amazon RDS。
我的爬虫正在爬取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理 URL 并将它们存储在 Amazon RDS 中。
我的问题是我应该使用什么数据存储来存储数据以进行清理(删除不需要的 URL)。我不希望爬虫撞击 Amazon RDS,这会减慢它的速度。
我应该使用 Amazon SimpleDB 吗?然后我可以从 SimpleDB 中读取数据,清理 URL 并将其移动到 Amazon RDS。