我有一组 avro 文件保存在 aws S3 中,已知模式在 .avsc 文件中定义。有没有办法用定义的模式在 spark 中创建对象数据集?
架构如下所示:
{
"type" : "record",
"name" : "NameRecord",
"namespace" : "com.XXX.avro",
"doc" : "XXXXX",
"fields" : [ {
"name" : "Metadata",
"type" : [ "null", {
"type" : "record",
"name" : "MetaNameRecord",
"doc" : "XXXX",
"fields" : [ {
"name" : "id",
"type" : "int"
}, {
"name" : "name",
"type" : [ "null", "string" ],
"default" : null
}]
}
我想创建一个 NameRecord 的数据集:Dataset[NameRecord]