1

我想存储网络爬虫获取的网页。我没有任何随机访问权限。所以每当我想读取存储的数据时,我都会从头到尾读取。

我们已经尝试过 HBase 之类的解决方案,但 HBase 的最大优点之一是随机访问我们根本不需要的记录。经过 1.5 年的测试,HBase 对我们来说并不稳定。

我只想要 HDFS 之上的堆栈或队列,因为网页的数量约为 10 亿。我什至不想要 ActiveMQ 的队列行为,我只想能够存储网页,以便在发生故障时可以全部读取。

我不想使用文件,因为我不想处理文件轮换、文件一致性和...

值得一提的是,我们需要 HDFS,因此当我们想要将所有存储的数据发送到 solr 集群并通过 HDFS 获得冗余和可用性等好处时,我们可以在数据上运行 MapReduce 作业。

HDFS 上是否有仅存储 JMS 记录的服务,没有任何随机访问功能,也没有透明的记录视图?

4

0 回答 0