serialization - 使用 Kryo 和 Spark 序列化 Cassandra 表

Question

我正在尝试使用 Apache Spark 测试 Kryo 序列化，以便测量有无序列化的执行时间，并将 kryo 对象流保存到磁盘以模拟 spark 下的缓存。

我设计的测试是将 Cassandra 表存储在序列化的 CassandraRDD 对象中。

生成 CassandraRDD 的 Scala 代码如下：

import com.datastax.spark.connector._
import org.apache.spark.{SparkConf, SparkContext}

object SparkCassandra {
def main(args: Array[String]): Unit ={


val conf = new SparkConf(true).set("spark.cassandra.connection.host","mycassandraip")
conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
val sc = new SparkContext("local","test",conf)

//Access to cassandra table
val kvRDD = sc.cassandraTable("test","kv")


kvRDD.collect().foreach(println)

}

}

这段代码有效，但我怀疑 kvRDD，即 CassandraRDD 对象没有被序列化。

是否有关于什么可以和不能用 Kryo 序列化的规则？我如何用 kryo.register 注册这个类？

如果我尝试使用 kryo.register(ClassOf[CassandraRDD]) 注册，我在尝试执行时会收到以下错误：

Error:(11, 27) class CassandraRDD takes type parameters
    kryo.register(classOf[CassandraRDD])
                      ^

请注意，我对 Scala 和 Kryo 非常陌生。

非常感谢你提前

score 0 · Accepted Answer

0

请尝试使用 CassandraRDD 序列化

 kryo.register(classOf[CassandraRDD[Any]])

于 2016-07-07T07:16:41.740 回答

serialization - 使用 Kryo 和 Spark 序列化 Cassandra 表

1 回答 1

Related

Reference