2

在搜索最佳Serialization技术时,apache-spark我在下面的链接 https://github.com/scala/pickling#scalapicklingSerialization中找到了该框架 ,其中的状态scala将更加快速和自动化。

Scala Pickling具有以下优点。(参考 - https://github.com/scala/pickling#what-makes-it-different

所以,我想知道 this Scala Pickling( PickleSerializer) 是否可以用于apache-spark代替KryoSerializer.

  • 如果是,则需要进行哪些必要的更改。(示例会有所帮助)
  • 如果没有为什么不。(请解释)

提前致谢。如果我错了,请原谅我。

注意:我正在使用scala语言来编码apache-spark(版本。1.4.1)应用程序。

4

1 回答 1

3

我在 2014 年访问了 Databricks 几个月,试图PicklingSerializer以某种方式将 a 合并到 Spark 中,但找不到在不更改 Spark 接口的情况下将 scala/pickling 所需的类型信息包含到 Spark 中的方法。当时,在 Spark 中更改接口是不可能的。例如,RDD 需要在Pickler[T]其接口中包含类型信息,以便 scala/pickling 中的生成机制生效。

但随着 Spark 2.0.0,所有这些都发生了变化。如果你使用Datasets 或DataFrames,你会得到所谓的Encoders。这甚至比 scala/pickling 更专业。

Dataset在 Spark 2.x 中使用s。它在序列化方面比普通的 RDD 性能要好得多

于 2017-03-21T10:58:57.660 回答