问题标签 [apache-spark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - How to create a Row from a List or Array in Spark using Scala
I'm trying to create a Row (org.apache.spark.sql.catalyst.expressions.Row
) based on the user input. I'm not able to create a Row randomly.
Is there any functionality to create a Row from List
or Array
.
For eg., If I have a .csv
file with the following format,
If the user input [1, 2]
then I need to take only 2nd column and 3rd column along with the customer_id
which is the first column
I try to parse it with the code:
where foo is defined as
and input is a List say
Executing this code I get l3 as:
But what I want is:
This has to be passed to create a schema in Spark SQL
java - MetaException(消息:java.lang.IllegalArgumentException:java.net.UnknownHostException)在pyspark上运行sql查询时
我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时,出现以下异常
但是当我执行以下查询时,出现以下错误
有人可以帮忙解决这个问题吗?
apache-spark-sql - 如何计算作业的文件读取时间?
我在 spark-shell 中运行一个 spark sql 作业,该作业从 parquet 文件创建一个表。
在驱动节点的 Web UI 上,一个任务有很多指标:
持续时间/调度程序延迟/任务反序列化时间/GC时间/结果序列化时间/获取结果时间/写入时间
我想知道从磁盘读取 parquet 块真正花费了多少时间(不包括反序列化、元组重建、随机写入等时间)。
我该如何计算呢?是
读取时间=持续时间-调度程序延迟-任务反序列化时间-GC时间-结果序列化时间-获取结果时间-写入时间?
谢谢,
scala - 如何最有效地将 Scala DataFrame 的行转换为案例类?
一旦我在 Spark 中获得了一些 Row 类,无论是 Dataframe 还是 Catalyst,我想在我的代码中将它转换为 case 类。这可以通过匹配来完成
但是当行有大量列时,它会变得很难看,比如十几个双精度数、一些布尔值,甚至是偶尔的空值。
我希望能够 - 抱歉 - 将 Row 转换为 myCaseClass。是否有可能,或者我已经获得了最经济的语法?
cassandra - Spark SQL Cassandra如何处理时间戳空值?
我目前正在使用带有 Spark 1.2.0 连接器的 Apache Cassandra 2.1.2 集群。对于一些初始测试,我需要通过 spark-shell 中的 Spark SQL 命令从 Cassandra 表中选择一些行。
我们在键空间ks中使用了一个名为tabletest的表。该表包含例如一个id (bigint)和一个ts (timestamp)。
这是我的火花脚本:
当我通过命令执行此脚本时:
一切正常,直到一行包含 ts 单元格的空值。如果有一行 ts 的值为空,我会遇到几个异常,这些异常与 spark 正在等待一个长值(8 个字节)并且没有得到任何字节有关。即使我尝试在不显示行的情况下计算行数,我也会遇到同样的问题。
我该如何处理这样的空值,我是否必须在我的 SQL 查询中使用一些函数来用默认值替换空值,或者我可以在我的脚本中使用一些方法或参数来允许 spark 处理这样的空值?
谢谢你的帮助,
最好的
尼古拉斯
hive - 如何通过 JDBC 接口在 SchemaRDD 上启用 SQL?(甚至有可能吗?)
更新问题陈述
我们正在使用 spark 1.2.0 (Hadoop 2.4)。我们已经使用 HDFS 中的数据文件定义了 SchemaRDD,并且希望能够通过 HiveServer2 将这些作为表进行查询。我们在尝试 saveAsTable 时遇到运行时异常,希望获得有关如何继续的指导。
源代码:
火花提交命令:
Node 上运行时的异常:
另一种尝试:
节点异常:
apache-spark - 如何将 spark sql 查询结果映射到对象?
据我所知,MyBatis 非常好。它可以将 jdbc 结果映射到对象。对于 spark sql 查询结果,有没有什么好方法可以将 spark 查询结果映射到对象?谢谢
java - 将分析数据从 Spark 插入 Postgres
我有 Cassandra 数据库,我通过 Apache Spark 使用 SparkSQL 分析了数据。现在我想将这些分析的数据插入到 PostgreSQL 中。除了使用 PostgreSQL 驱动程序之外,还有什么方法可以直接实现这一点(我使用 postREST 和驱动程序实现了它,我想知道是否有类似的方法saveToCassandra()
)?
sql - 使用复杂类型查询 Spark SQL DataFrame
如何查询具有复杂类型(如地图/数组)的 RDD?例如,当我编写此测试代码时:
我认为语法会是这样的:
或者
但我明白了
无法访问 MapType(StringType,StringType,true) 类型的嵌套字段
和
org.apache.spark.sql.catalyst.errors.package$TreeNodeException:未解析的属性
分别。
apache-spark - PySpark 中减少的正确输入
我正在尝试使用 spark 离散化一些数据。
我有以下格式的数据:
然后我有以下代码:
然后我有一个离散化的函数:
我将使用此结果列,然后将其与原始数据集连接。
我正在尝试使用以下语句执行操作:
本质上,我想要一个((年,月),整行)的元组,这样我就可以找到每个月和年组合的第 75 个百分位数。
我能够让地图部分正常工作。当我取出 reduce 部分时,我可以让代码工作。
当我同时使用 map 和 reduce 运行语句时,出现以下错误:
我不确定我做错了什么。也许这与我生成键值对的方式有关?