问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
427 浏览

sql - apache spark sql查询优化和保存结果值?

我在文本文件中有大量数据(1,000,000 行)。每行有 128 列。这里每一行是一个特征,每一列是一个维度。

我已经将 txt 文件转换为 json 格式,并且能够使用 spark 对 json 文件运行 sql 查询。
现在我正在尝试用这个大数据构建一个 kd 树。
我的步骤:
1)计算每列的方差选择具有最大方差的列并将其作为关键第一个节点,列的平均值作为节点的值。
2)基于第一个节点值将数据分成两部分,重复该过程,直到达到一个点。

我的示例代码:

people 表有 128 列

我的问题:
1)如何将查询的结果值保存到列表中?
2)如何计算列的方差?
3)我将对同一数据运行多个查询。火花有什么方法可以优化它吗?
4)如何将输出保存为文本文件中的键值对?

请帮忙

0 投票
1 回答
1583 浏览

apache-spark - 如果 Spark SQL 支持像“插入覆盖目录”这样的 HQL?

我想问一下 Spark SQL 是否支持像“插入覆盖目录”这样的 HQL。还是有另一种方法可以将结果集(从 spark sql jdbc 服务器)直接保存到 HDFS?

0 投票
1 回答
386 浏览

bigdata - 火花代码给出错误

运行我编写的以下 SPARK 代码时出现错误。我正在尝试根据键找到所有向量的总和。每个输入行以键(整数)开头,然后是 127 个浮点数,这是一个具有 127 维的单个向量,即每行以一个键和一个向量开头。


示例行input.txt

6.0 156.0 26.0 3.0 1.0 0.0 2.0 1.0 15.0 113.0 53.0 139.0 156.0 0.0 0.0 0.0 156.0 29.0 1.0 38.0 59.0 0.0 0.0 0.0 28.0 4.0 2.0 9.0 1.0 0.0 0.0 0.0 9.0 83.0 13.0 1.0 0.0 9.0 42.0 7.0 41.0 71.0 74.0 123.0 35.0 17.0 7.0 2.0 156.0 27.0 6.0 33.0 11.0 2.0 0.0 11.0 35.0 4.0 2.0 4.0 1.0 3.0 2.0 4.0 0.0 0.0 0.0 0.0 2.0 19.0 45.0 17.0 47.0 2.0 2.0 7.0 59.0 90.0 15.0 11.0 156.0 14.0 1.0 4.0 9.0 11.0 2.0 29.0 35.0 6.0 5.0 9.0 4.0 2.0 1.0 3.0 1.0 0.0 0.0 0.0 1.0 5.0 25.0 14.0 27.0 2.0 0.0 2.0 86.0 48.0 10.0 6.0 156.0 23.0 1.0 2.0 21.0 6.0 0.0 3.0 31.0 10.0 4.0 3.0 0.0 0.0 1.0 2.0

下面是我得到的错误。此错误来自代码的最后一行,即output.reduceByKey

错误消息 - http://pastebin.com/0tqiiJQm

不太确定如何解决这个问题。我尝试使用 aMarshalSerializer但它给出了同样的问题。

- - - - - - - - - - - - - - - 回答 - - - - - - - - - - -----------------

我从apache 用户列表中得到了相同问题的答案。基本上,在集群中运行的映射器/归约器没有类定义,我们必须通过在不同的模块中编写类并在使用配置 SparkContext 时附加来传递类

谢谢大家帮助我。

0 投票
1 回答
13805 浏览

scala - 创建RDD时未找到火花错误RDD类型

我正在尝试创建案例类对象的 RDD。例如。,

我正在尝试通过给出来完成上一个示例中的部分

我收到以下错误:

知道出了什么问题吗?提前致谢!

0 投票
1 回答
994 浏览

hive - 无法从 impala/hive/spark sql 访问“spark 注册表”

我使用 scala 在 spark 中创建了一个数据源。我有一个案例类并创建了一个 RDD 并将其注册为一个表。就像 spark 文档中给出的示例一样。

但是我无法访问 hive、impala 或 spark-sql 中的表。“显示表格”命令不显示表格。关于如何实现这一目标的任何想法?

谢谢!

0 投票
4 回答
15558 浏览

apache-spark - 在 spark 中使用 Hive 上下文时出错:对象 hive 不是包 org.apache.spark.sql 的成员

我正在尝试构建一个继承自 SQLContext 的 Hive 上下文。

我收到以下错误:

我可以从自动补全中清楚地看到 hive 不存在。关于如何解决这个问题的任何想法?这是可用 sparkSQL 文档中的一个示例。

谢谢

0 投票
1 回答
3511 浏览

sql - Spark SQL - 如何从纪元中选择存储为 UTC 毫秒的日期?

我一直在搜索,但没有找到一个解决方案,即如何使用 Spark SQL 从纪元查询存储为 UTC 毫秒的日期。我从 NoSQL 数据源(来自 MongoDB 的 JSON)中提取的模式的目标日期为:

完整的架构如下:

我的目标是按照以下方式编写查询:

到目前为止,我的过程是:

(此时下面的基线查询执行成功)

现在,我无法正确理解的巫术是如何形成我的选择语句来推理日期。例如,以下执行无错误,但返回零而不是所有记录的计数(74475)。

我也尝试过一些丑陋的东西,比如:

按照建议,我选择了一个命名字段以确保其有效。所以:

返回:

然后扩展以尝试使我尝试过的某些日期起作用:

导致错误:

在我们的字段名称前面加上$同样建议的前缀会导致另一种错误:

显然我不知道如何选择以这种方式存储的日期 - 谁能帮我填补这个空白?

我对 Scala 和 Spark 都比较陌生,所以如果这是一个基本问题,请原谅我,但我在论坛和 Spark 文档上的搜索结果为空。

谢谢你。

0 投票
3 回答
8397 浏览

java - 转换 JavaDStream到 JavaRDD

我有一个从外部源获取数据的 JavaDStream。我正在尝试集成 Spark Streaming 和 SparkSQL。众所周知,JavaDStream 是由 JavaRDD 的 . 当我有 JavaRDD 时,我只能应用函数 applySchema()。请帮助我将其转换为 JavaRDD。我知道 scala 中有一些函数,而且它更容易。但是用Java帮助我。

0 投票
2 回答
1637 浏览

apache-spark - Spark 是否支持插入覆盖静态分区?

我注意到在当前的 Spark Sql 手册中不支持插入动态分区:

主要蜂巢功能

Spark SQL 当前不支持使用动态分区插入表。

但是,是否支持在静态分区中插入/覆盖?

0 投票
3 回答
44662 浏览

scala - 在 Spark SQL 中动态绑定变量/参数?

如何在 Apache Spark SQL 中绑定变量?例如: