0

我正在开发爬虫应用程序,我正在使用 Redis 来保存我的爬虫将要爬取的待处理 urs 队列。

有多个节点在运行,它们从 Redis DB 获取要抓取的 URL,并在抓取后将新的 URL(在抓取的 URL 页面上找到)再次放入 redis。我是redis,用于极快的插入和选择。

我的数据库大小急剧增长。在我的爬虫运行 24 小时后,我的 Redis 中有超过 1000 万个 URL(我使用 url 作为键和其他参数,如 depth/crawlTime 等作为值)。我使用单机作为 Redis 服务器。

我不清楚 Redis 的性能以及如何在 Redis 上处理这么多数据?还是应该转移到 MongoDB 等其他数据库?

我的机器有 6 GB 内存。

亚历克斯

4

0 回答 0