问题标签 [apache-spark-dataset]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

908 问题

0 投票

1 回答

128 浏览

apache-spark - SparkSQL 聚合器：MissingRequirementError

我正在尝试使用 Apache Spark 的 2.0 数据集：

但是当我运行它时，我收到以下错误消息：

scala.reflect.internal.MissingRequirementError: class lineb4c2bb72bf6e417e9975d1a65602aec912.$read in JavaMirror with sun.misc.Launcher$AppClassLoader@14dad5dc of type class sun.misc.Launcher$AppClassLoader with class path [OMITTED] not found

我假设配置是正确的，因为我在 Databricks 社区云下运行。

0 投票

1 回答

712 浏览

scala - Spark 中的数组数据集 (1.6.1)

因此，我一直在尝试重新格式化我正在处理的项目以使用 Dataset API，并且遇到了一些编码错误问题。根据我的阅读，我认为我应该能够将原始值数组存储在数据集中。但是，以下类给了我编码错误：

有人可以帮我理解这里的问题吗？数据集目前不能处理基元数组，还是我需要做一些额外的事情才能使它们工作？

谢谢

编辑1：

这是我得到的完整错误

scala apache-spark apache-spark-sql apache-spark-dataset

0 投票

1 回答

949 浏览

java - 什么是支持的流数据源来持久化结果？

我正在尝试将新的流式写入功能与 spark 2.0.1-SNAPSHOT 一起使用。实际上支持哪个输出数据源来持久化结果？我能够在控制台上显示输出，如下所示：

但是如果我尝试将 .format("console") 更改为 "json" 或 "jdbc" 我会收到消息：数据源 xxx 不支持流式写入。

java apache-spark apache-spark-sql spark-streaming apache-spark-dataset

0 投票

1 回答

779 浏览

scala - 从数据集转换为数据框时如何点亮选项

所以这就是我一直在尝试的：

scala apache-spark apache-spark-sql apache-spark-dataset

0 投票

1 回答

1881 浏览

scala - 如何在 Spark 数据集中创建 TypedColumn 并对其进行操作？

我正在尝试使用mapGroups返回 SparseMatrix 作为列之一来执行聚合，并对列求和。

我case class为映射的行创建了一个模式，以便提供列名。矩阵列是键入的org.apache.spark.mllib.linalg.Matrix。toDF如果我在执行聚合 () 之前没有运行，select(sum("mycolumn")我会收到一种类型不匹配错误 ( required: org.apache.spark.sql.TypedColumn[MySchema,?])。如果我包含toDF我会收到另一个类型不匹配错误：cannot resolve 'sum(mycolumn)' due to data type mismatch: function sum requires numeric types, not org.apache.spark.mllib.linalg.MatrixUDT. 那么正确的方法是什么？

scala apache-spark apache-spark-dataset

0 投票

3 回答

18596 浏览

scala - 如何命名聚合列？

我在 Scala 中使用 Spark，我的聚合列是匿名的。有没有一种方便的方法来重命名数据集中的多个列？我考虑过强加一个模式，as但键列是一个结构（由于groupBy操作），我不知道如何在其中定义case classa StructType。

我尝试按如下方式定义模式：

但我得到一个编译错误：

scala apache-spark apache-spark-dataset

0 投票

1 回答

263 浏览

scala - 为什么 Dataset 不接受自己的类型转换模式？

我正在努力理解如何制作数据集模式。我有一个来自聚合的数据集，其中一列中的键元组，第二列中的聚合：

为什么我不能应用此架构？

我也没有成功地试图反映一个 Scala case class：

scala apache-spark apache-spark-dataset

0 投票

2 回答

12678 浏览

scala - 使用 typedcolumn 选择 Spark 数据集

查看select()spark DataSet 上的函数，有各种生成的函数签名：

这似乎暗示我应该能够直接引用 MyClass 的成员并且类型安全，但我不确定如何......

ds.select("member")当然有效..似乎ds.select(_.member)也可以以某种方式工作？

scala apache-spark apache-spark-dataset

0 投票

3 回答

73068 浏览

scala - 为什么在创建自定义案例类的数据集时“无法找到存储在数据集中的类型的编码器”？

Spark 2.0（最终版）和 Scala 2.11.8。以下超级简单的代码会产生编译错误Error:(17, 45) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.

scala apache-spark apache-spark-dataset apache-spark-encoders

0 投票

1 回答

6643 浏览

scala - Apache Spark 2.0：java.lang.UnsupportedOperationException：找不到 java.time.LocalDate 的编码器

我正在使用 Apache Spark 2.0 并case class为DetaSet. 当我尝试根据如何在数据集中存储自定义对象来定义自定义编码器时？，因为java.time.LocalDate我得到了以下异常：

以下是代码：

我们如何为 spark 定义第三方 api 的编码器？

更新

当我为整个案例类创建编码器时，df.map..将对象映射为二进制，如下所示：

我期待 FireService 的地图，但返回地图的二进制文件。

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-dataset]

Reference