mapreduce - mapreduce 可以在共享元组空间（例如：数据库）上有效地工作吗？

Question

我问这个是因为我想知道在数据库或共享键值存储上运行 mapreduce 查询是否有效？

例如，要实现一个网络拖网渔船，它索引互联网并计算不同网页上的所有术语，这是否可以使用数据库作为后端有效地完成？

score 1 · Accepted Answer

当然。HBase 和其他 NoSql 存储非常适合此任务。

有关将 HBase 与 MapReduce 结合使用的一般概述，请参阅本文。

HBase 是 Hadoop 数据库。当您需要对大数据进行随机、实时的读/写访问时使用它。该项目的目标是在商用硬件集群上托管非常大的表——数十亿行 X 数百万列。

HBase 是一个开源的、分布式的、面向列的存储，模仿 Google 的 Bigtable：Chang 等人的结构化数据的分布式存储系统。正如 Bigtable 利用 Google 文件系统提供的分布式数据存储一样，HBase 在 Hadoop 之上提供了类似 Bigtable 的功能。HBase 包括：

•<strong>使用 HBase 表支持 Hadoop MapReduce 作业的便捷基类

•通过服务器端扫描查询谓词下推并获取过滤器

•实时查询优化

•高性能 Thrift 网关 •支持 XML、Protobuf 和二进制数据编码选项的 REST-ful Web 服务网关

•级联源和汇模块

• 可扩展的基于 jruby (JIRB) 的外壳

•支持通过Hadoop度量子系统将度量导出到文件或Ganglia；或通过 JMX

mapreduce - mapreduce 可以在共享元组空间（例如：数据库）上有效地工作吗？

1 回答 1

Related

Reference