我是 Spark 的新手,我试图弄清楚是否有办法将复杂的对象(嵌套)或复杂的 json 保存为 Spark 中的 Parquet。我知道 Kite SDK,但我知道它使用 Map/Reduce。
我环顾四周,但找不到解决方案。
谢谢你的帮助。
我是 Spark 的新手,我试图弄清楚是否有办法将复杂的对象(嵌套)或复杂的 json 保存为 Spark 中的 Parquet。我知道 Kite SDK,但我知道它使用 Map/Reduce。
我环顾四周,但找不到解决方案。
谢谢你的帮助。
case class Address(city:String, block:String);
case class Person(name:String,age:String, address:Address);
val people = sc.parallelize(List(Person("a", "b", Address("a", "b")), Person("c", "d", Address("c", "d"))));
val df = sqlContext.createDataFrame(people);
df.write.mode("overwrite").parquet("/tmp/people.parquet")
SO上的这个答案有帮助。 Spark SQL:嵌套类到镶木地板错误
但很难找到,所以我在这里回答了我自己的问题。希望这可以帮助其他人寻找示例。