问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
204 浏览

scala - 来自 SchemaRDD 的模式?

给定一个SchemaRDD(使用加载SQLContext.parquetFile),我如何提取它的元数据/模式/列列表?

0 投票
1 回答
1303 浏览

apache-spark - Spark SQL 性能很差

我想使用 SPARK SQL。我发现性能很差。

在我的第一个解决方案中:当每个 SQL 查询到来时,将数据从 hbase 实体加载到 dataRDD,然后将此 dataRDD 注册到 SQLcontext。最后执行 spark SQL 查询。显然该解决方案非常糟糕,因为它每次都需要加载数据。

所以我改进了第一个解决方案。
在我的第二个解决方案中,不要考虑 hbase 数据更新和插入
当应用程序启动时,从HBASE entity to a dataRDD, named cachedDataRDD.
将 cachedDataRDD 注册到 SQLcontext
当每个 SQL 查询到来时,执行 spark SQL 查询。性能非常好。

但是有些实体需要考虑更新和插入。
所以我根据第二个解决方案更改了解决方案。

在我的第三个解决方案中需要考虑 hbase 数据更新和插入
当应用程序启动时,从HBASE entity to a dataRDD, named cachedDataRDD.
当 SQL 查询到来时,加载the new updates and inserts data to another dataRDD, named newDataRDD.
然后 将 cachedDataRDD 注册到 SQLcontext 最后执行 spark SQL 查询。 但是我发现联合转换会导致获取查询结果的收集动作很慢。比 hbase api 查询慢得多。set cachedDataRDD = cachedDataRDD.union(dataRDD);


有没有办法调整第三个解决方案的性能?
通常在什么条件下使用spark SQL比较好?
使用 spark SQL 有什么好的用例吗?
谢谢

0 投票
1 回答
3273 浏览

hadoop - 使用 hive/sql 和 spark 读取 json 键值

我正在尝试将这个 json 文件读入一个配置单元表,顶级键即 1,2..,这里不一致。

我只需要蜂巢表中的时间和读数 1,2,因为列会忽略位置。我还可以组合使用 hive 查询和 spark map-reduce 代码。感谢您的帮助。

更新,这是我正在尝试的

它抛出以下错误:

0 投票
2 回答
2604 浏览

apache-spark - CASE 语句示例

有人可以帮我确定CASESpark SQL 语句的正确语法吗?我尝试了以下方法:

wherecircle是一个有效的列名。但是,我仍然无法确定正确的方法。

0 投票
1 回答
2013 浏览

apache-spark - Spark SQL thrift server 不能在集群模式下运行?

在 Spark 1.2.0 中,当我尝试以集群模式启动 Spark SQL thrift 服务器时,我得到以下输出:

“spark-internal”参数似乎是一个特殊的标志,告诉 spark-submit 要运行的类是 Spark 库的一部分,因此它不需要分发 jar。但由于某种原因,这似乎在这里不起作用。

0 投票
2 回答
213 浏览

apache-spark - 在 Apache Spark GraphX 中是否可以加载和查询除 HBASE 之外的结构化数据?

所以我设法使用 Pig XMLloader 将 2 个代表顶点和边缘数据的 XML 文件加载到 Hadoop/HDFS 中,并从中创建了 Hive 表。

我想使用这个顶点和边缘数据来创建一个基于 Spark GraphX 的图形数据库。我从 Spark GraphX 文档中了解到,除了平面文件之外,HBASE 表还可以用于获取 Spark GraphX。我找不到任何关于使用其他结构化大数据源(例如 Hive)的 Spark GraphX 文档。

但是,在 SparkSQL 中,支持 Hive 作为结构化数据的来源。SparkSQL 也支持 JSON 结构化数据。

SparkSQL 中对 Hive 的支持是否也意味着 Spark GraphX 原生支持使用 HiveContext 的 Hive?使用 JSON 源文件以 .jsonFile(name.json) 作为源来创建 VertexRDD 怎么样?

0 投票
2 回答
1428 浏览

hive - 在未找到 cdh5.3 类的纱线上运行 spark sql

我可以在独立模式下完美地使用 spark 运行 spark-sql,但是当涉及到 yarn 模式时。spark 告诉我它找不到 hive 类(一些基本的类,如 org/apache/hadoop/hive/ql/plan/TableDesc) .

所以我将 hive 库添加到了 compute-classpath.sh。失败的。然后我想如果纱线不起作用并且独立工作正常。也许我应该更改纱线类路径以包含配置单元库。

然后我又失败了。

我只是不明白配置单元库出现在我的纱线启动日志和火花输出中,为什么我的配置单元 sql 告诉我找不到基本配置单元类?

谢谢大家帮助我

0 投票
3 回答
37161 浏览

scala - 从“org.apache.spark.sql.Row”中提取信息

我已经Array[org.apache.spark.sql.Row]返回sqc.sql(sqlcmd).collect()

我可以得到各个值:

但他们是Any,不是Int

我如何将它们提取为Int

最明显的解决方案不起作用:

PS。我可以做pixels(0)(0).toString.toIntor pixels(0).getString(0).toInt,但他们觉得不对...

0 投票
2 回答
114 浏览

sql - RangePartitioner 问题

我正在加入两个表,如下所示,程序在日志行下方停止并且永远不会继续。

信息 SparkContext:开始工作:Exchange.scala 的 RangePartitioner:79

可能是什么问题和可能的解决方案?列数是个问题吗?任何建议,将不胜感激。

表 1 有 400 行 450 列 表 2 有 1000 行 100 列

0 投票
2 回答
4567 浏览

apache-spark - Spark-sql CLI 在运行查询时仅使用 1 个执行程序

我将使用 spark-sql cli 替换 hive cli shell,然后按照命令运行 spark-sql cli,(我们在 yarn Hadoop 集群上使用,hive-site.xml 已经复制到 /conf)

.> spark-sql 然后shell打开并且工作正常,

我执行一个类似的查询,

./spark-sql>select devicetype, count(*) from mytable group by devicetype;

命令执行成功,结果正确。但我注意到性能非常缓慢。

从 spark job ui, http://myhost:4040,我注意到只有 1 Executor 标记为 used,所以这可能是原因。

我尝试修改 spark-sql 脚本并在 exec 命令中添加 –num-executors 500,但它没有帮助。

所以任何人都可以帮助解释为什么?

谢谢。