1

我有一个 pyspark 数据框。我能够将动态数据帧转换为火花数据帧persons.toDF()。我想再次将 spark 数据帧转换回 pyspark 中的动态数据帧。我想将我的列转换为时间戳,然后再次将其转换为动态数据帧以解析选择。请帮我

4

2 回答 2

1

至少你需要 pyspark.context、awsglue.context 和 awsglue.dynamicframe 有例子:

from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame

sc = SparkContext()
glueContext = GlueContext(sc)

NewDynamicFrame = DynamicFrame.fromDF(persons, glueContext, "nested")

“人”是你的数据框

请检查以下链接:

  1. https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-samples-medicaid.html

  2. https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html#aws-glue-api-crawler-pyspark-extensions-dynamic- frame-fromDF

于 2021-04-16T12:22:12.540 回答
1

您可以使用 fromDF 函数从数据帧创建动态帧。

基本语法

dyf = fromDF(dataframe, glue_ctx, name)

在哪里,

  • dataframe – 要转换的 Apache Spark SQL DataFrame(必需)。

  • 胶水ctx – GlueContext 类对象,指定此转换的上下文(必需)。

  • name – 生成的 DynamicFrame 的名称(必需)。

参考:来自数据帧的动态帧

于 2019-09-24T08:14:28.877 回答