问题标签 [apache-spark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 集成 Spark SQL 和 Spark Streaming 时出现不可序列化异常
这是我的源代码,我从服务器端获取一些数据,它不断生成数据流。然后对于每个 RDD ,我正在应用 SQL 模式,一旦创建了这个表,我就试图从这个 DStream 中选择一些东西。
但是它抛出了这个可序列化的异常,尽管我使用的类确实实现了序列化。
scala - 从 hive 表中获取数据到 spark 并在 RDD 上执行连接
我在蜂巢/黑斑羚中有两张桌子。我想将表中的数据作为 rdds 提取到 spark 中并执行连接操作。
我不想在我的配置单元上下文中直接传递连接查询。这只是一个例子。我有更多标准 HiveQL 无法实现的用例。如何获取所有行、访问列并执行转换。
假设我有两个 rdds:
我想在名为“account_id”的列上对 rdds 执行连接
理想情况下,我想使用 rdds 使用 spark shell 来做这样的事情。
scala - Spark SQL:来自 csv 的自动模式
spark sql 是否提供任何方法来自动加载 csv 数据?我找到了以下 Jira:https ://issues.apache.org/jira/browse/SPARK-2360但它已关闭....
目前我会加载一个csv文件,如下所示:
从 csv 文件中自动推断模式的任何提示?特别是a)我如何生成一个代表模式的类和b)我如何自动填充它(即Record(r(0),r(1),.....))?
更新:我在这里找到了模式生成的部分答案:http: //spark.apache.org/docs/1.1.0/sql-programming-guide.html#data-sources
所以剩下的唯一问题是如何
map(p => Row(p(0), p(1).trim))
为给定数量的属性动态地执行该步骤?
谢谢你的支持!约尔格
scala - Spark SQL中SpecificMutableRow的优势是什么?
从评论看来:
可变容器对象的父类,在更改值时重用,从而减少垃圾。
和
一种包含数组专用容器对象的行类型,类型为 MutableValue,根据每列的数据类型选择。目的是在修改原始列的值时减少垃圾。
谁能解释它是如何有效的?仅仅是它避免拳击的事实就足够了吗?
apache-spark - SparkSQL:忽略无效的 json 文件
我正在使用 SparkSQL 加载一堆 JSON 文件,但有些有问题。
我想继续处理其他文件,同时忽略坏文件,我该怎么做?
我尝试使用 try-catch 但它仍然失败。例子:
我失败了:
scala - SparkSQL 时间戳查询失败
我通过 Spark 将一些日志文件放入 sql 表中,我的架构如下所示:
如您所见,我创建了一个时间戳字段,我读到的 Spark 支持该字段(据我了解,日期不起作用)。我很想使用像“where timestamp>(2012-10-08 16:10:36.0)”这样的查询,但是当我运行它时,我不断收到错误。我尝试了以下 2 种 sintax 形式:对于第二种形式,我解析一个字符串,所以我确定我实际上以时间戳格式传递它。我使用 2 个函数:parse和 date2timestamp。
关于我应该如何处理时间戳值的任何提示?
谢谢!
1) scala> sqlContext.sql("SELECT * FROM Logs as l where l.timestamp=(2012-10-08 16:10:36.0)").collect
2) sqlContext.sql("SELECT * FROM Logs as l where l.timestamp="+date2timestamp(formatTime3.parse("2012-10-08 16:10:36.0"))).collect
apache-spark - 通过 Thrift Server 访问 Spark SQL RDD 表
我已经使用 Spark SQL 注册了一个临时表,如[本节]中所述:
现在我想通过 JDBC 远程访问这个表。我按照[this other section]中的描述启动 Thrift 服务器。
但该表不可见。
我猜这是因为表是“临时的”(即与SqlContext
对象的生命周期相关联)。但是如何制作非临时表?
我可以通过 Thrift 服务器查看Hive 表,但我不知道如何公开这样的 RDD。我发现一条评论表明我不能。
还是应该在我的应用程序中使用自己的 Thrift Server 运行SqlContext
?它周围的几乎所有类都是private
,并且这段代码不在 Maven Central 中(据我所知)。我应该使用HiveThriftServer2.startWithContext
吗?它是无证的@DeveloperApi
,但可能有效。
apache-spark-sql - Spark SQL:未解析的属性
当我尝试读取 sql 结果的计数时收到以下错误:
错误:
这是我正在使用的代码:
我正在使用 Spark 1.1.0 并在本地运行该程序。
json - SparkSql 中出现意外的转义字符错误
我正在尝试
val i = sqlContext.jsonFile("file_name.json")
使用 scala 通过代码读取 json 文件。它给了我错误“意外的转义字符:a”。
当我将此行包含在 try catch 中时,即使这样它也会给出相同的错误。
为什么会这样?有人有什么想法吗?如何读取我的 json 文件?
我正在尝试学习 SparkSql。
sql - SQL-Functions with schemaRDD 使用语言集成 SQL
我想使用基于 SQL 函数的语言集成 SQL 来过滤 schemaRDD。例如我想跑
如何在 people.where() 中使用此类 SQL 函数?
参考:
对于语言集成 SQL,我将按照此处给出的示例进行操作。
提前致谢!