json - spark-jobserver 序列化格式

Question

开始使用 spark-jobserver 我了解到数据帧可以像Spark 一样扁平化数据帧，但这仍然不能满足https://github.com/spark-jobserver/spark-jobserver#job-result-serialization

如果这是我从火花得到的结果

Array([1364767200000,1.9517414004122625E15], [1380578400000,6.9480992806496976E16])

我怎样才能将它映射到合适的格式？（有用的序列化） 如何添加其他字段？

尝试使用类似的数组：Array([1,2], [3,4])只会导致错误。

目前，我得到以下基于Spark 展平数据帧的序列化：

 "result": "Map(1364767200000 -> 1.9517414004122625E15, 1380578400000 -> 6.9480992806496976E16)"

这显然不是由jobs-erver“解析”的。

据我了解，嵌套数组（来自collect）无法正确序列化。但是，这个映射应该是可序列化的。怎么了？

编辑

只有当我返回一个正确键入的列表时，Json 编码似乎才有效。

  case class Student(name: String, age: Int)
List(Student("Torcuato", 27), Student("Rosalinda", 34))

结果是："result": [["Torcuato", 27], ["Rosalinda", 34]]。已经为

  val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))
    dataFrame.collect

我知道"result": ["[Torcuato,27]", "[Rosalinda,34]"]这是某种奇怪的 Json。

据我了解问题，我需要将所有结果解析为自定义类。我将如何实现这一目标？

score 0 · Accepted Answer

答案是，目前显然只支持字符串映射，因此，Scala 中的 Convert DataFrame to RDD[Map] 会导致干净的序列化。

json - spark-jobserver 序列化格式

编辑

1 回答 1

Related

Reference