我想了解 spark hiveContext
。hiveContext
当我们使用like编写查询时
sqlContext=new HiveContext(sc)
sqlContext.sql("select * from TableA inner join TableB on ( a=b) ")
它是使用 Spark 引擎还是 Hive 引擎?我相信上面的查询是用 Spark 引擎执行的。但如果是这样的话,为什么我们需要数据框?
我们可以在sqlContext.sql("")
不使用数据帧的情况下盲目地复制所有配置单元查询并运行。
通过 DataFrames,我的意思是这样TableA.join(TableB, a === b)
我们甚至可以使用 SQL 命令执行聚合。任何人都可以澄清这个概念吗?如果使用数据框连接而不是sqlContext.sql()
连接有什么好处?加入只是一个例子。:)