3

我想知道您能否告诉我应该为我的场景使用哪些 NoSQL 数据库或技术/工具。我们正在考虑用开源技术替换基于 SQL 服务器分析服务的 OLAP 多维数据集,因为数据变得太大而无法管理,查询需要很长时间才能返回。我们已经按照书中的每一条规则对数据进行分片,通过使用聚合和分区等优化多维数据集的设计,但我们的一些不同计数查询仍然需要 1-2 分钟 :( 我们的事实表的数据大小大约是250GB。并且有 10-12 个维度以星型模式连接。

因此,我们决定尝试使用 Hadoop/HBase/NoSQL dbs 等开源技术,看看它们是否能够以最少的设置和引导来解决我们的 OLAP 场景。

我们对新技术的主要要求是

  1. 对于不同的计数查询(< 2 秒),它必须获得极快或即时的结果

  2. 支持度量和维度的概念(如在 OLAP 中)。

  3. 支持类似 SQL 的查询语言,因为我们的许多开发人员都是 SQL 专家。
  4. 能够连接 Excel/Tableau 以可视化数据。

由于当今开源世界中有如此多的新技术和工具,我希望您能帮助我指出正确的方向。

4

2 回答 2

4

备注:我来自 Apache Kylin 团队。

请参考以下答案,可能会给您带来一些想法:

我们对新技术的主要要求是它必须为不同的计数查询获得极快或即时的结果(< 2 秒)

--Luke: 90%tile 查询延迟小于 5s 是我们目前的统计数据。对于<2s on distinct count,您将拥有多少数据?近似结果可以吗?

支持度量和维度的概念(如在 OLAP 中)。

--Luke:Kylin 是纯 OLAP 引擎,具有维度(也支持层次结构)和度量(Sum/Count/Min/Max/Avg/DistinctCount)定义

支持类似 SQL 的查询语言,因为我们的许多开发人员都是 SQL 专家。 --Luke:Kylin 支持 ANSI SQL 接口(大多数 SELECT 函数)

能够连接 Excel/Tableau 以可视化数据。

--Luke:Kylin 的 ODBC 驱动程序与 Tableau 配合得非常好,Excel/PowerBI 即将推出。

如果您有更多问题,请告诉我们。

谢谢。

于 2015-03-25T01:47:52.013 回答
1

看起来“麒麟” http://www.kylin.io/是我的答案。这有我想要的所有要求,甚至更多。我现在就试一试!:)

于 2015-01-27T20:50:04.517 回答