问题标签 [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何从 RDD 中保存的文本文件创建 Shark 查询?
我有一个JavaPairRDD<String, String> results
,我通过调用保存它:
然后我得到如下文件内容:
现在,我想使用 Shark 创建一个包含三个字段的表,例如:
我怎样才能做到这一点?
apache-spark - 我们可以将 Shark 0.9.1 版本与 Spark 1.1.0 一起使用吗?
我知道 Shark 已被 Spark SQL 所包含,这是 Apache Spark 中的一个新模块。但我的问题是,我们可以将现有的 Shark 与新的 Spark 版本一起使用吗?
apache-spark - Spark 是否支持插入覆盖静态分区?
我注意到在当前的 Spark Sql 手册中不支持插入动态分区:
主要蜂巢功能
Spark SQL 当前不支持使用动态分区插入表。
但是,是否支持在静态分区中插入/覆盖?
hadoop - 就速度而言,鲨鱼或火花哪个更好
我对这两个很困惑。我知道鲨鱼和蜂巢一样,速度快 100 倍,在火花上工作。我想知道火花和鲨鱼之间的主要区别。哪个更好意味着更快。
当我必须使用火花或鲨鱼时????
java - java HiveClient 失败选择:java.sql.SQLException:查询返回非零代码:9
我对 Hive 和 HDFS 还很陌生,但是我设法在 java 中创建了一个功能正常的 HiveClient,它成功地连接并在我的 HDFS 服务器上执行查询。也就是说,除了select语句之外的所有查询。
我的代码如下所示:
当我运行它时,错误是这样的:
java.sql.SQLException:查询返回非零代码:9,原因:FAILED:执行错误,从org.apache.hadoop.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java)的shark.execution.SparkTask返回代码-101 :194) 在 se.HiveClient.doQuery(HiveClient.java:56) 在 se.HiveClient.main(HiveClient.java:82)
但如果我改为创建表或显示表,它运行完美。是否存在缺少配置或权限的情况?还是完全不同的东西?
任何关于我可能在哪里做错或错过了什么的想法都非常感谢。
apache-spark - SPARK - 如何通过查询使用分组功能
我要将SHARK查询迁移到SPARK中。
下面是我在 group by 子句中使用函数的示例SHARK查询。
同样的查询在SPARK sql 中不起作用,它给出了以下错误;
错误: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:表达式不在 GROUP BY 中。
因此,作为解决方案的一部分,我在 SPARK 查询下使用,这是有效的,但需要更改代码。这对我现有的项目影响很大。因此,任何人都有一个影响最小的更好的解决方案。
hadoop - 如果表包含重复行,则返回布尔值(1 或 0)
如果 Hive 0.9 中的表中有重复项,我希望返回一个布尔值现在,我正在这样做:
但这给了我一个错误:
“无法识别'where''v''附近的输入。' 在子查询源 [DB Errorcode=11] "
我不确定我哪里出错了,或者我在这里错过了什么!
shark-sql - 鲨鱼:失败:语义分析错误:预计只有一个参数
在创建了一个包含 5000 行小于 1000 的随机整数的表后,我正在使用 APPROX_SUM 查询。
它总是导致异常
预计只有一个论点。
但我只使用一列只有整数,如下所述。我正在运行鲨鱼信息。有人可以给我一个关于如何解决问题的提示吗?