问题标签 [apache-spark-dataset]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

908 问题

0 投票

1 回答

3661 浏览

scala - Spark 数据集和 java.sql.Date

假设我有一个Dataset这样的 Spark：

我想创建一个Dataset只有名称和日期字段的新字段。据我所知，我可以使用ds.select()withTypedColumn或者我可以使用ds.select()withColumn然后将其转换DataFrame为Dataset.

但是，我无法让前一个选项与该Date类型一起使用。例如：

后一个选项有效：

有没有一种方法可以从不来回选择Date字段？DatasetDataFrame

0 投票

1 回答

907 浏览

apache-spark - DataFrame / Dataset Apache spark的逻辑计划

我正在使用火花 2.0.0 。这是我的代码：

我坚持执行logicalQuery. 我想得到dataframe或dataset如果可能的话。任何帮助，将不胜感激

apache-spark apache-spark-dataset

0 投票

2 回答

7363 浏览

apache-spark - How to efficiently rename columns in Datasets (Spark 2.0)

With DataFrames, one can simply rename columns by using df.withColumnRename("oldName", "newName"). In Datasets, since every field is typed and named, this doesn't seem possible. The only work around I can think of is to use map on the Dataset:

This seems a very round-about and inefficient way just to rename a column. Is there a better way?

apache-spark apache-spark-dataset

0 投票

1 回答

1270 浏览

scala - 如何在没有自定义案例类的情况下将包含大量列的镶木地板文件读取到数据集？

我想使用数据集而不是数据框。

我正在阅读镶木地板文件并想直接推断类型：

我不想要Dataset[Row]一个Dataset.

我知道我可以做类似的事情：

但是，我的数据有很多列！所以，如果我可以避免编写案例类，那就太好了！

scala apache-spark apache-spark-dataset

0 投票

0 回答

159 浏览

apache-spark - Spark 嵌套 RDD 限制

看起来无法执行嵌套 RDD 操作是 Spark 现在面临的一个限制。

目前，我有两个从不同表加载的数据集（比如 A 和 B），对于数据集 A 中的每条记录，我需要查询另一个数据集 B。结果在提交到数据库之前会进一步转换。

正如我见过的其他一些 SO 问题中所建议的那样，在这种情况下加入也不起作用。例如，嵌套的 spark Sql 查询是这样的：

那么如何通过嵌套处理 A 对 B 的每条记录。

谢谢

apache-spark apache-spark-sql rdd spark-dataframe apache-spark-dataset

0 投票

1 回答

34 浏览

apache-spark - 从 SQL 查询返回的 `dataframe/Dataset` 函数中获取相同的结果

数据：

预期输出：

我可以通过编写 sql 查询来实现这一点。

请帮助我使用dataframe/Dataset函数（select、groupby、agg 等）实现相同的结果

apache-spark apache-spark-sql apache-spark-dataset

0 投票

1 回答

2701 浏览

apache-spark - 在 java 中使用 spark 数据集读取 avro 数据

我是 spark 的新手，我正在尝试使用 java 加载 avro 数据来触发“数据集”（spark 1.6）。我在 scala 中看到了一些示例，但在 java 中没有。任何指向 java 中示例的指针都会有所帮助。我尝试创建一个 javaRDD，然后将其转换为“数据集”。我相信必须有一条直截了当的方法。

apache-spark apache-spark-dataset spark-avro

0 投票

2 回答

671 浏览