apache-spark-sql - 如何使用 Spark 作业服务器中的 NamedDataFrame

Question

我在我的项目中使用了 SJS，并想知道 SJS 的 NamedDataFrame 是如何工作的。我的第一个程序是这样做的

val schemaString = "parm1:int,parm2:string,parm3:string,parm4:string,parm5:int,parm6:string,parm7:int,parm8:int"
val schema = StructType(schemaString.split(",").map(fieldName => StructField(fieldName.split(":")(0), getFieldTypeInSchema(fieldName.split(":")(1)),true)))   

val eDF1 = hive.applySchema(rowRDD1, schema)
this.namedObjects.getOrElseCreate("edf1", new NamedDataFrame(eDF1, true, StorageLevel.MEMORY_ONLY))

我的第二个程序这样做是为了检索 DataFrame。

 val eDF1: Option[NamedDataFrame]   = this.namedObjects.get("eDF1")

在这里我只能使用 Option。我必须如何将 NamedDataFrame 转换为 Spark DataFrame？

是否有类似的东西可用？

this.namedObjects.get[(Int,String,String,String,Int,String,Int,Int)]("eDF1")

谢谢！！

Edit1：准确地说，没有 SJS 持久性，这可以在 df 上完成

eDF1.filter(eDF1.col("parm1")%2!==0)

如何从保存的 namedObject 执行相同的操作？

score 0 · Accepted Answer

以https://github.com/spark-jobserver/spark-jobserver/blob/master/job-server-extras/src/spark.jobserver/NamedObjectsTestJob.scala为例

score 0 · Accepted Answer

以下适用于 NamedDataFrame

工作1

this.namedObjects.getOrElseCreate("df:esDF1", new NamedDataFrame(eDF1, true, StorageLevel.MEMORY_ONLY))

工作2

val NamedDataFrame(eDF1, _, _) = namedObjects.get[NamedDataFrame]("df:esDF1").get

现在我可以在第二个作业中对 eDF1 进行操作，作为 spark 数据帧。

apache-spark-sql - 如何使用 Spark 作业服务器中的 NamedDataFrame

2 回答 2

Related

Reference