问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
54106 浏览

scala - How to create a Row from a List or Array in Spark using Scala

I'm trying to create a Row (org.apache.spark.sql.catalyst.expressions.Row) based on the user input. I'm not able to create a Row randomly.

Is there any functionality to create a Row from List or Array.

For eg., If I have a .csv file with the following format,

If the user input [1, 2] then I need to take only 2nd column and 3rd column along with the customer_id which is the first column

I try to parse it with the code:

where foo is defined as

and input is a List say

Executing this code I get l3 as:

But what I want is:

This has to be passed to create a schema in Spark SQL

0 投票
1 回答
1753 浏览

java - MetaException(消息:java.lang.IllegalArgumentException:java.net.UnknownHostException)在pyspark上运行sql查询时

我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时,出现以下异常

但是当我执行以下查询时,出现以下错误

有人可以帮忙解决这个问题吗?

0 投票
0 回答
328 浏览

apache-spark-sql - 如何计算作业的文件读取时间?

我在 spark-shell 中运行一个 spark sql 作业,该作业从 parquet 文件创建一个表。

在驱动节点的 Web UI 上,一个任务有很多指标:

持续时间/调度程序延迟/任务反序列化时间/GC时间/结果序列化时间/获取结果时间/写入时间

我想知道从磁盘读取 parquet 块真正花费了多少时间(不包括反序列化、元组重建、随机写入等时间)。

我该如何计算呢?是

读取时间=持续时间-调度程序延迟-任务反序列化时间-GC时间-结果序列化时间-获取结果时间-写入时间?

谢谢,

0 投票
4 回答
67595 浏览

scala - 如何最有效地将 Scala DataFrame 的行转换为案例类?

一旦我在 Spark 中获得了一些 Row 类,无论是 Dataframe 还是 Catalyst,我想在我的代码中将它转换为 case 类。这可以通过匹配来完成

但是当行有大量列时,它会变得很难看,比如十几个双精度数、一些布尔值,甚至是偶尔的空值。

我希望能够 - 抱歉 - 将 Row 转换为 myCaseClass。是否有可能,或者我已经获得了最经济的语法?

0 投票
1 回答
1177 浏览

cassandra - Spark SQL Cassandra如何处理时间戳空值?

我目前正在使用带有 Spark 1.2.0 连接器的 Apache Cassandra 2.1.2 集群。对于一些初始测试,我需要通过 spark-shell 中的 Spark SQL 命令从 Cassandra 表中选择一些行。

我们在键空间ks中使用了一个名为tabletest的表。该表包含例如一个id (bigint)和一个ts (timestamp)

这是我的火花脚本:

当我通过命令执行此脚本时:

一切正常,直到一行包含 ts 单元格的空值。如果有一行 ts 的值为空,我会遇到几个异常,这些异常与 spark 正在等待一个长值(8 个字节)并且没有得到任何字节有关。即使我尝试在不显示行的情况下计算行数,我也会遇到同样的问题。

我该如何处理这样的空值,我是否必须在我的 SQL 查询中使用一些函数来用默认值替换空值,或者我可以在我的脚本中使用一些方法或参数来允许 spark 处理这样的空值?

谢谢你的帮助,

最好的

尼古拉斯

0 投票
2 回答
1142 浏览

hive - 如何通过 JDBC 接口在 SchemaRDD 上启用 SQL?(甚至有可能吗?)

更新问题陈述

我们正在使用 spark 1.2.0 (Hadoop 2.4)。我们已经使用 HDFS 中的数据文件定义了 SchemaRDD,并且希望能够通过 HiveServer2 将这些作为表进行查询。我们在尝试 saveAsTable 时遇到运行时异常,希望获得有关如何继续的指导。

源代码:

火花提交命令:

Node 上运行时的异常:

另一种尝试:

节点异常:

0 投票
2 回答
1085 浏览

apache-spark - 如何将 spark sql 查询结果映射到对象?

据我所知,MyBatis 非常好。它可以将 jdbc 结果映射到对象。对于 spark sql 查询结果,有没有什么好方法可以将 spark 查询结果映射到对象?谢谢

0 投票
4 回答
7500 浏览

java - 将分析数据从 Spark 插入 Postgres

我有 Cassandra 数据库,我通过 Apache Spark 使用 SparkSQL 分析了数据。现在我想将这些分析的数据插入到 PostgreSQL 中。除了使用 PostgreSQL 驱动程序之外,还有什么方法可以直接实现这一点(我使用 postREST 和驱动程序实现了它,我想知道是否有类似的方法saveToCassandra())?

0 投票
3 回答
75330 浏览

sql - 使用复杂类型查询 Spark SQL DataFrame

如何查询具有复杂类型(如地图/数组)的 RDD?例如,当我编写此测试代码时:

我认为语法会是这样的:

或者

但我明白了

无法访问 MapType(StringType,StringType,true) 类型的嵌套字段

org.apache.spark.sql.catalyst.errors.package$TreeNodeException:未解析的属性

分别。

0 投票
1 回答
1064 浏览

apache-spark - PySpark 中减少的正确输入

我正在尝试使用 spark 离散化一些数据。

我有以下格式的数据:

然后我有以下代码:

然后我有一个离散化的函数:

我将使用此结果列,然后将其与原始数据集连接。

我正在尝试使用以下语句执行操作:

本质上,我想要一个((年,月),整行)的元组,这样我就可以找到每个月和年组合的第 75 个百分位数。

我能够让地图部分正常工作。当我取出 reduce 部分时,我可以让代码工作。

当我同时使用 map 和 reduce 运行语句时,出现以下错误:

我不确定我做错了什么。也许这与我生成键值对的方式有关?