问题标签 [apache-spark-encoders]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
776 浏览

scala - 如何将编码器作为参数传递给数据帧的 as 方法

我想通过使用不同的案例类将 dataFrame 转换为 dataSet。现在,我的代码如下所示。

所以,我的问题是“无论如何我可以通过案例类使用一个通用函数作为这个函数的额外参数吗?”

0 投票
2 回答
2793 浏览

scala - 将 ADT / 密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet列中存储代数数据类型 (ADT)(即 Scala 密封特征层次结构),最好的编码策略是什么?

例如,如果我有一个叶类型存储不同类型数据的 ADT:

构建一个的最佳方法是什么:

0 投票
1 回答
799 浏览

apache-spark - 如何在 Spark 2.1 中为集合编写编码器?

我有这个:

对于Array我可以写的内部元组:

但是我怎样才能Encoder为外部写Array呢?

0 投票
2 回答
23600 浏览

java - 行类型 Spark 数据集的编码器

我想为 DataSet 中的Row类型编写一个编码器,用于我正在执行的映射操作。本质上,我不明白如何编写编码器。

下面是一个 map 操作的例子:

In the example below, instead of returning Dataset<String>, I would like to return Dataset<Row>

我知道不是字符串编码器需要写成如下:

但是,我不理解编码器中的 clsTag(),我试图找到一个可以演示类似内容的运行示例(即行类型的编码器)

编辑 - 这不是提到的问题的副本:Encoder error while trying to map dataframe row to updated row as the answer谈到在Spark 2.x中使用Spark 1.x(我没有这样做),我也在寻找用于 Row 类的编码器,而不是解决错误。最后,我一直在寻找 Java 中的解决方案,而不是 Scala 中的解决方案。

0 投票
1 回答
2732 浏览

java - java - 如何使用java对象将两个spark数据集连接到一个?

我在 Spark 中加入两个数据集时遇到了一点问题,我有这个:

我可以打印模式并正确显示。

最后一行无法加入并给我这个错误:

这是真的,因为 Tuple2 (object2) 没有所有的变量......

然后我试过这个:

并且工作正常!但是,我需要一个没有元组的新数据集,我有一个 object3,它有一些来自 object1 和 object2 的变量,那么我有这个问题:

失败!...这是错误:

以及数以千计的错误行...

我能做些什么?我试过:

  • 仅使用 String、int(或 Integer)和 double(或 Double)(不再)制作我的对象
  • 使用不同的编码器,如 kryo 或 javaSerialization
  • 使用 JavaRDD(有效!但速度很慢)并使用 Dataframes with Rows(有效,但我需要更改许多对象)
  • 我所有的java对象都是可序列化的
  • 使用 sparks 2.1.0 和 2.1.1,现在我的 pom.xml 上有 2.1.1

我想使用数据集,使用来自 Dataframes 的速度和来自 JavaRDD 的对象 sintax ...

帮助?

谢谢

0 投票
1 回答
7629 浏览

scala - Spark:java.lang.UnsupportedOperationException:找不到java.time.LocalDate的编码器

我正在使用 2.1.1 版编写 Spark 应用程序。以下代码在调用带有 LocalDate 参数的方法时出错?

更新: 我将返回类型更改runJob.run()为元组(int, java.sql.Date)并将 lambda 中的代码更改.map(...)

现在错误变为

0 投票
1 回答
383 浏览

apache-spark - 如何在 Spark 中为 Row、LabeledPointData 设置编码器?

如何为 LabeledPointData 设置编码器,它是 Double、Vectors of Double 的组合。如何设置编码器以创建 DataFrame?

0 投票
1 回答
6331 浏览

scala - 用于火花案例类的 scala 通用编码器

我怎样才能让这个方法编译。奇怪的是,已经导入了隐含的火花。

这是错误:

0 投票
2 回答
59829 浏览

scala - 如何在 Scala 中将数据帧转换为 Apache Spark 中的数据集?

我需要将我的数据框转换为数据集,并使用以下代码:

我的问题是,我收到以下错误:

似乎数据框中的值的数量与我班级中的值的数量不同。但是我case class df_ds(features:Vector, label:Integer)在我的 TrainingDF 数据帧上使用它,因为它有一个特征向量和一个整数标签。这是 TrainingDF 数据框:

这也是我原来的final_df数据框:

但是我得到了提到的错误!有谁能够帮我?提前致谢。

0 投票
0 回答
445 浏览

apache-spark - spark自定义kryo编码器不为UDF提供模式

跟随如何在数据集中存储自定义对象?并尝试为数据帧注册我自己的 kryo 编码器,但我遇到了一个问题Schema for type com.esri.core.geometry.Envelope is not supported

有一个函数可以将字符串(WKT)解析为几何对象,例如:

这适用于 UDF,例如:

但是,UDF 将编译但会引发以下运行时错误:

编辑

然而

工作得很好:

我怎样才能让它在 UDF 中也能工作