问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4751 浏览

join - 如何在 Apache Spark SQL 中执行更新

我必须通过一些条件来更新 aJavaSchemaRDD一些新值。WHERE

这是我想转换成 Spark SQL 的 SQL 查询:

0 投票
1 回答
578 浏览

json - 无法使用 Elasticsearch-hadoop 中的 SchemaRDD.saveToES() 从 HDFS 索引 JSON

这是我第一次真正尝试 spark/scala,所以要温柔。

我在 HDFS 上有一个名为 test.json 的文件,我正在尝试使用 Spark 读取和索引该文件。我可以通过 SQLContext.jsonFile() 读取文件,但是当我尝试使用 SchemaRDD.saveToEs() 时,我收到了一个无效的 JSON 片段接收错误。我在想 saveToES() 函数实际上并没有格式化 json 中的输出,而只是发送 RDD 的值字段。

我究竟做错了什么?

火花 1.2.0

Elasticsearch-hadoop 2.1.0.BUILD-20150217

测试.json:

火花壳:

错误:

输入:

输入.printSchema():

0 投票
1 回答
903 浏览

apache-spark - 我可以将 Spark RDD 拆分为两个表,然后对它们执行连接吗?

我有一个大型 TSV 数据文件,其中包含汇总在一起的事实表及其维度表。我想知道是否可以通过 Spark 将单个文件划分/分区为不同的“表”,然后执行连接以规范化它们?

任何为我指明正确方向的帮助都会很棒。

0 投票
2 回答
2179 浏览

json - 使用 SPARK (SQL) 删除不必要的 JSON 字段

我是一个新的 spark 用户,目前正在使用 Spark 和一些大数据,我有一个与 Spark SQL 或更正式的 SchemaRDD 相关的问题。我正在阅读一个 JSON 文件,其中包含有关一些天气预报的数据,但我对我拥有的所有字段并不真正感兴趣......我只希望为每条记录返回 50 多个字段中的 10 个字段。有没有一种方法(类似于过滤器)可以用来指定我想从 spark.xml 中删除的某些字段的名称。

只是一个小的描述性示例。考虑我有 Schema“Person”,其中包含 3 个字段“Name”、“Age”和“Gender”,我对“Age”字段不感兴趣,想删除它。我可以使用火花一些如何做到这一点。? 谢谢

0 投票
1 回答
8192 浏览

java - 将日期时间保存到 Spark 中的 Parquet

我想在编译时使用未知格式的数据创建 Parquet 文件。稍后我将模式作为文本获取,并且我知道某些列包含日期和时间。我想使用 Spark 和 Java 来做到这一点。所以我按照http://spark.apache.org/docs/1.2.1/sql-programming-guide.html#programmatically-specifying-the-schema并创建了具有适当类型的模式。我尝试使用 SparkDataType.TimestampTypeDataType.DateType类似日期的列。但他们都没有工作。当我尝试保存文件时,JavaSchemaRDD.saveAsParquetFile我收到错误Unsupported datatype+ 我尝试的日期类型。我试过这个,emptyRDD所以数据转换没有任何问题。

调查后:http: //parquet.incubator.apache.org/documentation/latest/https://github.com/Parquet/parquet-format/blob/master/LogicalTypes.md我认为我需要转换数据转换成一些整数/长类型,并告知它们代表日期的事实。如果是这样,我该如何在 Spark 中做到这一点?或者也许我需要做点别的?

0 投票
1 回答
378 浏览

apache-spark - 是否有任何 Cloudera Hadoop 发行版支持 Apache Spark SQL

我是 Apache Spark 的新手。我听说到目前为止,没有一个 CDH 版本支持 Apache Spark SQL,hortonworks 发行版也是如此。真的吗..?

另一个是我的 PC 上安装了 CDH 5.0.0,我的 CDH 支持哪个版本的 Apache Spark..?

也有人可以向我提供在我的 CDH 发行版中执行我的 Spark 程序的步骤。我已经使用 Apache Spark 1.2 版本编写了一些基本程序,但我无法在 CDH 环境中运行这些程序,当我使用 spark-submit 命令运行 Spark 程序时,我面临着非常基本的问题

火花提交:找不到命令

在运行我的 Spark 程序之前,我是否需要配置任何东西..?

提前致谢

0 投票
1 回答
3580 浏览

apache-spark - Spark 中对 java 的用户定义类型的支持

spark中是否支持UDT for java?

将 JavaRDD 转换为 JavaSchemaRDD 时,JavaSQLContext 是否支持用户定义类型 (UDT)?

如果是,是否有任何示例来证明该能力。

0 投票
3 回答
4811 浏览

elasticsearch - 通过 Spark SQL 将 tableau 与 Elastic search 连接起来

我找到了一篇讨论通过 Hive SQL 将 Tableau 连接到 Elastic Search的帖子。我想知道是否有办法通过 Spark SQL 连接到 Elastic Search,因为我对 hive 不太熟悉。

谢谢。

0 投票
3 回答
1407 浏览

scala - 使用 Product 接口扩展 scala 类以克服 spark-shell 中 22 个字段的限制时遇到错误

我需要创建一个类模式来支持 29 个字段。由于案例类有 22 个字段的限制,我尝试使用 Product 接口扩展我的类“sdp_d”,如下所示:

}

这定义了类“sdp_d”。但是,当我尝试使用此预定义模式加载 csv 数据并将其注册为表时,我收到错误消息:

我在火花壳工作。Spark 版本 1.1.0 和 Scala 版本 2.10.4。

我不明白为什么错误:未找到:值 sdp_d。

当我创建自己的扩展产品接口的类时,我应该如何注册?

请帮助解决错误。

0 投票
1 回答
744 浏览

apache-spark - 是否可以通过 Spark 进行自定义连接(不是通过主键)?

我可以通过它们的主键加入 Pair RDD,但是是否可以基于值对象的某些属性加入?

例如,假设我有一个列表或两个对象的配对列表。

我想加入这两个列表,其中 TV_station_information station_name 与 View_information station_name 匹配。

我无法制作 View_information station_name 的键,因为每个站都有大量的时间块。此外,我还将通过 Spark 跨其他表加入 View_information 表。

任何帮助都是极好的。