3

我们目前面临的问题是如何有效地从非常大的数据集(数十亿)中存储和检索数据。我们一直在使用 mysql 并优化了系统、操作系统、raid、查询、索引等,现在正在寻求继续前进。

我需要就采用何种技术来解决我们的数据问题做出明智的决定。我一直在研究使用 HDFS 的 map/reduce,但也听说过有关 HBase 的好消息。我不禁想到还有其他选择。是否对可用的技术进行了很好的比较,以及每种技术的权衡是什么?

如果您有每个链接可以分享,我也将不胜感激。

4

1 回答 1

4

这是一个广泛的问题。我会尽量给出指示,对于每一个你可以查看或询问更多信息。第一个是......传统的数据库。如果数据足够有价值,您可以拥有 RAID 和良好的服务器 - Oracle 可能是不错的、昂贵的解决方案。TPC-H 是决策支持查询的行业标准基准:http ://www.tpc.org/tpch/results/tpch_perf_results.asp ,它是顶级性能结果的链接。如您所见 - RDBMS 可以扩展到数 TB 的数据。
其次是 HDFS + Map/Reduce + Hive 形式的 Hadoop。Hive 是 MapReduce 之上的数据仓库解决方案。您可以获得一些额外的好处,例如以原始格式存储数据和线性扩展的能力。您将看到的一件事 - 索引和运行非常复杂的查询。
第三个是 MPP——海量并行处理数据库。它们可以从数十个节点扩展到数百个节点,并具有丰富的 SQL 支持。例如 Netezza、Greenplum、Asterdata、Vertica。在它们之间进行选择不是一件简单的事情,但在更精确的要求下也可以做到。

于 2011-01-20T06:33:43.027 回答