1

是否有任何使用 NOSQL/Hadoop 解决方案设计的 EDW(企业数据仓库)系统?

我知道有连接到 HDFS 子系统的 PDW 系统(MS PDW polybase、Greenplum hawq 等)。这些是专有的硬件和软件解决方案,而且规模庞大。我正在寻找一个带有 NOSQL 或 Hadoop 的解决方案,最好是企业数据仓库解决方案的开源解决方案。如果您实施了任何经验,我想听听您的任何经验。再次提一下,我不是在寻找任何类型的专有 RDBMS 作为这个 EDW 解决方案的参与者。

我在互联网上做了一些研究,虽然这是可能的(Impala 是一个可能的选择),但没有看到任何人真正完全使用 NOSQL 或 Hadoop 实现。

如果你做过这种类型的事情,我想听听你是如何设计的,以及你的业务分析师使用了哪些不同的工具等……如果你能分享你在旅途中的经验,那将不胜感激。

更新中...... VoltDb 和 NEOdb 怎么样(它们不是真正的 RDBMS),但他们声称他们可以在更大程度上支持 ANSI SQL。

4

1 回答 1

2

在 Hadoop 之上构建 EDW 将面临的第一个问题是它的存储不可更新,因此您应该忘记 SQL UPDATE 和 DELETE 命令。

其次,建立在 Hadoop 之上的解决方案的维护成本通常要高出数倍。更昂贵的专家,更复杂的调试(比较调试 Hive 查询中的问题与 Oracle 中的 SQL 查询问题 - 这会更容易)。

第三,对于任何置于其之上的工作负载,Hadoop 通常会为您提供更少的并发性和更高的延迟。

考虑到这一切,您为什么认为 DWH 是在 Hadoop 之上构建的,仅适用于 Facebook、Yahoo、Ebay、LinkedIn 等真正的大企业?因为它做起来并不简单,而在实施时,它比任何专有解决方案更具可扩展性和可定制性。

因此,如果您明确决定继续使用 Hadoop 或任何其他 NoSQL 解决方案来构建您的 DWH,我建议您这样做:

  1. 使用 Hadoop HDFS 作为数据存储的基础
  2. 使用 Flume 将数据加载到 HDFS
  3. 将 Hive 与 Tez 一起用于繁重的 ETL 作业
  4. 为分析师提供 Impala 作为 SQL 查询接口
  5. 为分析师提供 Spark 作为高级工具
  6. 使用 Ambari 管理和配置所有工具

这些工具将满足您的大部分需求

于 2014-11-01T18:53:17.073 回答