4

我知道这个问题有点奇怪。我喜欢 Hadoop 和 HDFS,但最近使用 Hive Metastore 研究 SparkSQL。

我想使用 SparkSQL 作为一个垂直 SQL 引擎来跨不同的数据源(如 RDB、Mongo、Elastic ......)运行 OLAP 查询,而无需 ETL 过程。然后我在 Metastore 中使用相应的 Hive 存储处理程序将不同的模式注册为外部表。

此外,HDFS 在我的工作中并未用作数据源。然后,给定的 Map/R 已经被 Spark 引擎取代。在我看来,Hadoop/HDFS 是无用的,但它是 Hive 安装的基础。我不想都买。

我想知道如果我只启动 Hive Metastore 服务而不使用 Hadoop/HDFS 来支持 SparkSQL,会发生什么样的问题。我会把自己放到丛林里吗?

4

1 回答 1

3

您需要的是“Hive Local Mode”(在页面中搜索“Hive, Map-Reduce and Local-Mode”)。

也可能有所帮助。

仅当您在本地进行试验时才建议使用此配置。但在这种情况下,您只需要元存储。

也从这里

Spark SQL 使用 Hive Metastore,即使我们没有将其配置为 . 未配置时,它使用默认的 Derby DB 作为元存储。

所以这似乎是相当合法的;

  1. 在 Hive 中安排您的元存储
  2. 以本地模式启动 Hive
  3. 并让 Spark 使用 Hive 元存储
  4. 使用 Spark 作为 Hive 支持的所有数据源的 SQL 引擎。
于 2016-11-27T11:31:18.750 回答