stack - 在 HDFS 之上是否有像 Apache ActiveMQ 这样的解决方案？

翻译自：https://stackoverflow.com/questions/13802303 2012-12-10T13:51:19.117

455 次

1

我想存储网络爬虫获取的网页。我没有任何随机访问权限。所以每当我想读取存储的数据时，我都会从头到尾读取。

我们已经尝试过 HBase 之类的解决方案，但 HBase 的最大优点之一是随机访问我们根本不需要的记录。经过 1.5 年的测试，HBase 对我们来说并不稳定。

我只想要 HDFS 之上的堆栈或队列，因为网页的数量约为 10 亿。我什至不想要 ActiveMQ 的队列行为，我只想能够存储网页，以便在发生故障时可以全部读取。

我不想使用文件，因为我不想处理文件轮换、文件一致性和...

值得一提的是，我们需要 HDFS，因此当我们想要将所有存储的数据发送到 solr 集群并通过 HDFS 获得冗余和可用性等好处时，我们可以在数据上运行 MapReduce 作业。

HDFS 上是否有仅存储 JMS 记录的服务，没有任何随机访问功能，也没有透明的记录视图？

0 回答 0