hadoop - 使用 NOSQL /Hadoop 的企业数据仓库 - “NO RDBMS”

Question

是否有任何使用 NOSQL/Hadoop 解决方案设计的 EDW（企业数据仓库）系统？

我知道有连接到 HDFS 子系统的 PDW 系统（MS PDW polybase、Greenplum hawq 等）。这些是专有的硬件和软件解决方案，而且规模庞大。我正在寻找一个带有 NOSQL 或 Hadoop 的解决方案，最好是企业数据仓库解决方案的开源解决方案。如果您实施了任何经验，我想听听您的任何经验。再次提一下，我不是在寻找任何类型的专有 RDBMS 作为这个 EDW 解决方案的参与者。

我在互联网上做了一些研究，虽然这是可能的（Impala 是一个可能的选择），但没有看到任何人真正完全使用 NOSQL 或 Hadoop 实现。

如果你做过这种类型的事情，我想听听你是如何设计的，以及你的业务分析师使用了哪些不同的工具等……如果你能分享你在旅途中的经验，那将不胜感激。

更新中...... VoltDb 和 NEOdb 怎么样（它们不是真正的 RDBMS），但他们声称他们可以在更大程度上支持 ANSI SQL。

score 2 · Accepted Answer

在 Hadoop 之上构建 EDW 将面临的第一个问题是它的存储不可更新，因此您应该忘记 SQL UPDATE 和 DELETE 命令。

其次，建立在 Hadoop 之上的解决方案的维护成本通常要高出数倍。更昂贵的专家，更复杂的调试（比较调试 Hive 查询中的问题与 Oracle 中的 SQL 查询问题 - 这会更容易）。

第三，对于任何置于其之上的工作负载，Hadoop 通常会为您提供更少的并发性和更高的延迟。

考虑到这一切，您为什么认为 DWH 是在 Hadoop 之上构建的，仅适用于 Facebook、Yahoo、Ebay、LinkedIn 等真正的大企业？因为它做起来并不简单，而在实施时，它比任何专有解决方案更具可扩展性和可定制性。

因此，如果您明确决定继续使用 Hadoop 或任何其他 NoSQL 解决方案来构建您的 DWH，我建议您这样做：

使用 Hadoop HDFS 作为数据存储的基础
使用 Flume 将数据加载到 HDFS
将 Hive 与 Tez 一起用于繁重的 ETL 作业
为分析师提供 Impala 作为 SQL 查询接口
为分析师提供 Spark 作为高级工具
使用 Ambari 管理和配置所有工具

这些工具将满足您的大部分需求

hadoop - 使用 NOSQL /Hadoop 的企业数据仓库 - “NO RDBMS”

1 回答 1

Related

Reference