-1

我正在为链接数据编写一个网络爬虫,我需要将爬取的 URI 存储在磁盘上(不一定是分布式的,但可能是分布式的)。我的爬虫会不断检查存储中是否存在 URI。如果 URI 确实存在,它什么也不做,如果它不存在,它会爬取 URI 并将 URI 写入存储。起初,由于存储空间相当空,写入会比读取多,但在某些时候,读取会多于写入,我更喜欢更快的读取。我不需要任何连接操作等。我正在考虑基于文档的 NoSQL 存储,并且我定义了一个键 =“URI 的域”,值 =“整个 URI 的数组”。我不确定是否需要该值的二级索引。

4

1 回答 1

1

由于您只对搜索和存储感兴趣,因此 SQLite 适合您的目的。它是一个轻量级的数据库引擎。

塞拉姆拉。

于 2018-07-31T22:09:23.553 回答