我问这个是因为我想知道在数据库或共享键值存储上运行 mapreduce 查询是否有效?
例如,要实现一个网络拖网渔船,它索引互联网并计算不同网页上的所有术语,这是否可以使用数据库作为后端有效地完成?
我问这个是因为我想知道在数据库或共享键值存储上运行 mapreduce 查询是否有效?
例如,要实现一个网络拖网渔船,它索引互联网并计算不同网页上的所有术语,这是否可以使用数据库作为后端有效地完成?
当然。HBase 和其他 NoSql 存储非常适合此任务。
有关将 HBase 与 MapReduce 结合使用的一般概述,请参阅本文。
HBase 是 Hadoop 数据库。当您需要对大数据进行随机、实时的读/写访问时使用它。该项目的目标是在商用硬件集群上托管非常大的表——数十亿行 X 数百万列。
HBase 是一个开源的、分布式的、面向列的存储,模仿 Google 的 Bigtable:Chang 等人的结构化数据的分布式存储系统。正如 Bigtable 利用 Google 文件系统提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似 Bigtable 的功能。HBase 包括:
•<strong>使用 HBase 表支持 Hadoop MapReduce 作业的便捷基类
•通过服务器端扫描查询谓词下推并获取过滤器
•实时查询优化
•高性能 Thrift 网关 •支持 XML、Protobuf 和二进制数据编码选项的 REST-ful Web 服务网关
•级联源和汇模块
• 可扩展的基于 jruby (JIRB) 的外壳
•支持通过Hadoop度量子系统将度量导出到文件或Ganglia;或通过 JMX