我正在为链接数据编写一个网络爬虫,我需要将爬取的 URI 存储在磁盘上(不一定是分布式的,但可能是分布式的)。我的爬虫会不断检查存储中是否存在 URI。如果 URI 确实存在,它什么也不做,如果它不存在,它会爬取 URI 并将 URI 写入存储。起初,由于存储空间相当空,写入会比读取多,但在某些时候,读取会多于写入,我更喜欢更快的读取。我不需要任何连接操作等。我正在考虑基于文档的 NoSQL 存储,并且我定义了一个键 =“URI 的域”,值 =“整个 URI 的数组”。我不确定是否需要该值的二级索引。
问问题
56 次