3

我最近遇到了 Apache Kylin,很好奇它的用例是什么。据我所知,它似乎是一种工具,旨在解决与超过 10 亿行、聚合、缓存和查询来自其他来源(HBase、Hadoop、Hive)的数据相关的非常具体的问题。我在这个假设中正确吗?

4

1 回答 1

1

Apache Kylin 的用例是 Hadoop 上的交互式大数据分析。它允许您通过 3 个简单的步骤以亚秒级延迟查询大型 Hive 表。

  1. 识别星型模式中的一组 Hive 表。
  2. 在离线批处理中从 Hive 表构建多维数据集。
  3. 使用 SQL 查询 Hive 表,并通过 Rest API、ODBC 或 JDBC 在亚秒内获得结果。

该用例非常普遍,只要您可以从表中定义星型模式和模型多维数据集,它就可以快速查询任何 Hive 表。如果您不确定什么是星型模式和多维数据集,请查看Kylin 术语。

Kylin 提供 ANSI SQL 接口,因此您可以像以前一样查询 Hive 表。然而,一个限制是 Kylin 只提供聚合结果,或者换句话说,SQL 应该包含一个“group by”子句以产生正确的结果。这通常很好,因为大数据分析更多地关注聚合结果而不是单个记录。

于 2016-03-13T04:34:13.880 回答