问题标签 [apache-spark-sql]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

19785 问题

0 投票

3 回答

54106 浏览

scala - How to create a Row from a List or Array in Spark using Scala

I'm trying to create a Row (org.apache.spark.sql.catalyst.expressions.Row) based on the user input. I'm not able to create a Row randomly.

Is there any functionality to create a Row from List or Array.

For eg., If I have a .csv file with the following format,

If the user input [1, 2] then I need to take only 2nd column and 3rd column along with the customer_id which is the first column

I try to parse it with the code:

where foo is defined as

and input is a List say

Executing this code I get l3 as:

But what I want is:

This has to be passed to create a schema in Spark SQL

2015-01-23T10:43:50.740

0 投票

1 回答

1753 浏览

java - MetaException（消息：java.lang.IllegalArgumentException：java.net.UnknownHostException）在pyspark上运行sql查询时

我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时，出现以下异常

但是当我执行以下查询时，出现以下错误

有人可以帮忙解决这个问题吗？

java hive apache-spark apache-spark-sql pyspark

2015-01-23T15:42:15.040

0 投票

0 回答

328 浏览

apache-spark-sql - 如何计算作业的文件读取时间？

我在 spark-shell 中运行一个 spark sql 作业，该作业从 parquet 文件创建一个表。

在驱动节点的 Web UI 上，一个任务有很多指标：

持续时间/调度程序延迟/任务反序列化时间/GC时间/结果序列化时间/获取结果时间/写入时间

我想知道从磁盘读取 parquet 块真正花费了多少时间（不包括反序列化、元组重建、随机写入等时间）。

我该如何计算呢？是

读取时间=持续时间-调度程序延迟-任务反序列化时间-GC时间-结果序列化时间-获取结果时间-写入时间？

谢谢，

apache-spark-sql parquet

2015-01-24T11:24:20.080

0 投票

4 回答

67595 浏览

scala - 如何最有效地将 Scala DataFrame 的行转换为案例类？

一旦我在 Spark 中获得了一些 Row 类，无论是 Dataframe 还是 Catalyst，我想在我的代码中将它转换为 case 类。这可以通过匹配来完成

但是当行有大量列时，它会变得很难看，比如十几个双精度数、一些布尔值，甚至是偶尔的空值。

我希望能够 - 抱歉 - 将 Row 转换为 myCaseClass。是否有可能，或者我已经获得了最经济的语法？

scala apache-spark apache-spark-sql

2015-01-27T09:00:06.567

0 投票

1 回答

1177 浏览

cassandra - Spark SQL Cassandra如何处理时间戳空值？

我目前正在使用带有 Spark 1.2.0 连接器的 Apache Cassandra 2.1.2 集群。对于一些初始测试，我需要通过 spark-shell 中的 Spark SQL 命令从 Cassandra 表中选择一些行。

我们在键空间ks中使用了一个名为tabletest的表。该表包含例如一个id (bigint)和一个ts (timestamp)。

这是我的火花脚本：

当我通过命令执行此脚本时：

一切正常，直到一行包含 ts 单元格的空值。如果有一行 ts 的值为空，我会遇到几个异常，这些异常与 spark 正在等待一个长值（8 个字节）并且没有得到任何字节有关。即使我尝试在不显示行的情况下计算行数，我也会遇到同样的问题。

我该如何处理这样的空值，我是否必须在我的 SQL 查询中使用一些函数来用默认值替换空值，或者我可以在我的脚本中使用一些方法或参数来允许 spark 处理这样的空值？

谢谢你的帮助，

最好的

尼古拉斯

cassandra apache-spark apache-spark-sql

2015-01-29T15:54:57.500

0 投票

2 回答

1142 浏览

hive - 如何通过 JDBC 接口在 SchemaRDD 上启用 SQL？（甚至有可能吗？）

更新问题陈述

我们正在使用 spark 1.2.0 (Hadoop 2.4)。我们已经使用 HDFS 中的数据文件定义了 SchemaRDD，并且希望能够通过 HiveServer2 将这些作为表进行查询。我们在尝试 saveAsTable 时遇到运行时异常，希望获得有关如何继续的指导。

源代码：

火花提交命令：

Node 上运行时的异常：

另一种尝试：

节点异常：

hive apache-spark scala-2.10 apache-spark-sql

2015-01-29T19:00:18.193

0 投票

2 回答

1085 浏览

apache-spark - 如何将 spark sql 查询结果映射到对象？

据我所知，MyBatis 非常好。它可以将 jdbc 结果映射到对象。对于 spark sql 查询结果，有没有什么好方法可以将 spark 查询结果映射到对象？谢谢

apache-spark apache-spark-sql

2015-02-02T05:17:22.717

0 投票

4 回答

7500 浏览

java - 将分析数据从 Spark 插入 Postgres

我有 Cassandra 数据库，我通过 Apache Spark 使用 SparkSQL 分析了数据。现在我想将这些分析的数据插入到 PostgreSQL 中。除了使用 PostgreSQL 驱动程序之外，还有什么方法可以直接实现这一点（我使用 postREST 和驱动程序实现了它，我想知道是否有类似的方法saveToCassandra()）？

java postgresql cassandra apache-spark apache-spark-sql

2015-02-03T12:17:49.110

0 投票

3 回答

75330 浏览

sql - 使用复杂类型查询 Spark SQL DataFrame

如何查询具有复杂类型（如地图/数组）的 RDD？例如，当我编写此测试代码时：

我认为语法会是这样的：

或者

但我明白了

无法访问 MapType(StringType,StringType,true) 类型的嵌套字段

和

org.apache.spark.sql.catalyst.errors.package$TreeNodeException：未解析的属性

分别。

sql scala apache-spark dataframe apache-spark-sql

2015-02-04T22:12:38.397

0 投票

1 回答

1064 浏览

apache-spark - PySpark 中减少的正确输入

我正在尝试使用 spark 离散化一些数据。

我有以下格式的数据：

然后我有以下代码：

然后我有一个离散化的函数：

我将使用此结果列，然后将其与原始数据集连接。

我正在尝试使用以下语句执行操作：

本质上，我想要一个（（年，月），整行）的元组，这样我就可以找到每个月和年组合的第 75 个百分位数。

我能够让地图部分正常工作。当我取出 reduce 部分时，我可以让代码工作。

当我同时使用 map 和 reduce 运行语句时，出现以下错误：

我不确定我做错了什么。也许这与我生成键值对的方式有关？

apache-spark apache-spark-sql

2015-02-05T01:22:49.083

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-sql]

Reference