问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3080 浏览

java - 集成 Spark SQL 和 Spark Streaming 时出现不可序列化异常

这是我的源代码,我从服务器端获取一些数据,它不断生成数据流。然后对于每个 RDD ,我正在应用 SQL 模式,一旦创建了这个表,我就试图从这个 DStream 中选择一些东西。

但是它抛出了这个可序列化的异常,尽管我使用的类确实实现了序列化。

0 投票
4 回答
15786 浏览

scala - 从 hive 表中获取数据到 spark 并在 RDD 上执行连接

我在蜂巢/黑斑羚中有两张桌子。我想将表中的数据作为 rdds 提取到 spark 中并执行连接操作。

我不想在我的配置单元上下文中直接传递连接查询。这只是一个例子。我有更多标准 HiveQL 无法实现的用例。如何获取所有行、访问列并执行转换。

假设我有两个 rdds:

我想在名为“account_id”的列上对 rdds 执行连接

理想情况下,我想使用 rdds 使用 spark shell 来做这样的事情。

0 投票
2 回答
8004 浏览

scala - Spark SQL:来自 csv 的自动模式

spark sql 是否提供任何方法来自动加载 csv 数据?我找到了以下 Jira:https ://issues.apache.org/jira/browse/SPARK-2360但它已关闭....

目前我会加载一个csv文件,如下所示:

从 csv 文件中自动推断模式的任何提示?特别是a)我如何生成一个代表模式的类和b)我如何自动填充它(即Record(r(0),r(1),.....))?

更新:我在这里找到了模式生成的部分答案:http: //spark.apache.org/docs/1.1.0/sql-programming-guide.html#data-sources

所以剩下的唯一问题是如何 map(p => Row(p(0), p(1).trim))为给定数量的属性动态地执行该步骤?

谢谢你的支持!约尔格

0 投票
1 回答
270 浏览

scala - Spark SQL中SpecificMutableRow的优势是什么?

从评论看来:

可变容器对象的父类,在更改值时重用,从而减少垃圾。

一种包含数组专用容器对象的行类型,类型为 MutableValue,根据每列的数据类型选择。目的是在修改原始列的值时减少垃圾。

来源 - https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/SpecificMutableRow.scala

谁能解释它是如何有效的?仅仅是它避免拳击的事实就足够了吗?

0 投票
1 回答
2689 浏览

apache-spark - SparkSQL:忽略无效的 json 文件

我正在使用 SparkSQL 加载一堆 JSON 文件,但有些有问题。

我想继续处理其他文件,同时忽略坏文件,我该怎么做?

我尝试使用 try-catch 但它仍然失败。例子:

我失败了:

0 投票
4 回答
12516 浏览

scala - SparkSQL 时间戳查询失败

我通过 Spark 将一些日志文件放入 sql 表中,我的架构如下所示:

如您所见,我创建了一个时间戳字段,我读到的 Spark 支持该字段(据我了解,日期不起作用)。我很想使用像“where timestamp>(2012-10-08 16:10:36.0)”这样的查询,但是当我运行它时,我不断收到错误。我尝试了以下 2 种 sintax 形式:对于第二种形式,我解析一个字符串,所以我确定我实际上以时间戳格式传递它。我使用 2 个函数:parsedate2timestamp

关于我应该如何处理时间戳值的任何提示?

谢谢!

1) scala> sqlContext.sql("SELECT * FROM Logs as l where l.timestamp=(2012-10-08 16:10:36.0)").collect

2) sqlContext.sql("SELECT * FROM Logs as l where l.timestamp="+date2timestamp(formatTime3.parse("2012-10-08 16:10:36.0"))).collect

0 投票
4 回答
12822 浏览

apache-spark - 通过 Thrift Server 访问 Spark SQL RDD 表

我已经使用 Spark SQL 注册了一个临时表,如[本节]中所述:

现在我想通过 JDBC 远程访问这个表。我按照[this other section]中的描述启动 Thrift 服务器。

但该表不可见。

我猜这是因为表是“临时的”(即与SqlContext对象的生命周期相关联)。但是如何制作非临时表?

我可以通过 Thrift 服务器查看Hive 表,但我不知道如何公开这样的 RDD。我发现一条评论表明我不能。

还是应该在我的应用程序中使用自己的 Thrift Server 运行SqlContext?它周围的几乎所有类都是private,并且这段代码不在 Maven Central 中(据我所知)。我应该使用HiveThriftServer2.startWithContext吗?它是无证的@DeveloperApi,但可能有效。

0 投票
2 回答
1762 浏览

apache-spark-sql - Spark SQL:未解析的属性

当我尝试读取 sql 结果的计数时收到以下错误:

错误:

这是我正在使用的代码:

我正在使用 Spark 1.1.0 并在本地运行该程序。

0 投票
0 回答
338 浏览

json - SparkSql 中出现意外的转义字符错误

我正在尝试
val i = sqlContext.jsonFile("file_name.json")使用 scala 通过代码读取 json 文件。它给了我错误“意外的转义字符:a”。

当我将此行包含在 try catch 中时,即使这样它也会给出相同的错误。

为什么会这样?有人有什么想法吗?如何读取我的 json 文件?

我正在尝试学习 SparkSql。

0 投票
1 回答
2107 浏览

sql - SQL-Functions with schemaRDD 使用语言集成 SQL

我想使用基于 SQL 函数的语言集成 SQL 来过滤 schemaRDD。例如我想跑

如何在 people.where() 中使用此类 SQL 函数?

参考:

对于语言集成 SQL,我将按照此处给出的示例进行操作。

提前致谢!