我有一个包含时间戳和机器 ID 的 Spark 数据框。我希望从每个组中删除最低的时间戳值。我尝试了以下代码:
sqlC <- sparkRHive.init(sc)
ts_df2<- sql(sqlC,"SELECT ts,Machine FROM sdf2 EXCEPT SELECT MIN(ts),Machine FROM sdf2 GROUP BY Machine")
但是会出现以下错误:
16/04/06 06:47:52 ERROR RBackendHandler: sql on 35 failed
Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) :
org.apache.spark.sql.AnalysisException: missing EOF at 'SELECT' near 'EXCEPT'; line 1 pos 35
问题是什么?如果 HiveContext 不支持 EXCEPT 关键字,那么在 HiveContext 中执行相同操作的同义方式是什么?