hbase - 如何存储和查询非常大的数据集（除了关系数据库）

Question

我们目前面临的问题是如何有效地从非常大的数据集（数十亿）中存储和检索数据。我们一直在使用 mysql 并优化了系统、操作系统、raid、查询、索引等，现在正在寻求继续前进。

我需要就采用何种技术来解决我们的数据问题做出明智的决定。我一直在研究使用 HDFS 的 map/reduce，但也听说过有关 HBase 的好消息。我不禁想到还有其他选择。是否对可用的技术进行了很好的比较，以及每种技术的权衡是什么？

如果您有每个链接可以分享，我也将不胜感激。

score 4 · Accepted Answer

这是一个广泛的问题。我会尽量给出指示，对于每一个你可以查看或询问更多信息。第一个是......传统的数据库。如果数据足够有价值，您可以拥有 RAID 和良好的服务器 - Oracle 可能是不错的、昂贵的解决方案。TPC-H 是决策支持查询的行业标准基准：http ://www.tpc.org/tpch/results/tpch_perf_results.asp ，它是顶级性能结果的链接。如您所见 - RDBMS 可以扩展到数 TB 的数据。
其次是 HDFS + Map/Reduce + Hive 形式的 Hadoop。Hive 是 MapReduce 之上的数据仓库解决方案。您可以获得一些额外的好处，例如以原始格式存储数据和线性扩展的能力。您将看到的一件事 - 索引和运行非常复杂的查询。
第三个是 MPP——海量并行处理数据库。它们可以从数十个节点扩展到数百个节点，并具有丰富的 SQL 支持。例如 Netezza、Greenplum、Asterdata、Vertica。在它们之间进行选择不是一件简单的事情，但在更精确的要求下也可以做到。

hbase - 如何存储和查询非常大的数据集（除了关系数据库）

1 回答 1

Related

Reference