我是 Scala 和 Spark 的新手。
我正在尝试使用编码器从 Spark 读取文件,然后转换为 java/scala 对象。
使用 as 读取应用架构和编码的文件的第一步工作正常。
然后我使用该数据集/数据框进行简单的地图操作,但如果我尝试在结果数据集/数据框上打印模式,它不会打印任何列。
另外,当我第一次读取文件时,我没有在 Person 类中映射 age 字段,只是为了在 map 函数中计算它来尝试 - 但我没有看到那个 age 根本没有使用 Person 映射到数据框.
Person.txt 中的数据:
firstName,lastName,dob
ABC, XYZ, 01/01/2019
CDE, FGH, 01/02/2020
以下是代码:
object EncoderExample extends App {
val sparkSession = SparkSession.builder().appName("EncoderExample").master("local").getOrCreate();
case class Person(firstName: String, lastName: String, dob: String,var age: Int = 10)
implicit val encoder = Encoders.bean[Person](classOf[Person])
val personDf = sparkSession.read.option("header","true").option("inferSchema","true").csv("Person.txt").as(encoder)
personDf.printSchema()
personDf.show()
val calAge = personDf.map(p => {
p.age = Year.now().getValue - p.dob.substring(6).toInt
println(p.age)
p
} )//.toDF()//.as(encoder)
print("*********Person DF Schema after age calculation: ")
calAge.printSchema()
//calAge.show
}