3

由于我们的方案是不变的,我们使用 spark.read() 比在数据存储在 s3 中时从选项创建动态帧要快得多

所以现在想使用动态框架从胶水目录中读取数据需要很多时间所以想使用 spark read api Dataframe.read.format("").option("url","").option("dtable", schema.table 名称).load()

在格式和 url 选项中输入什么以及需要任何其他内容?

4

1 回答 1

5

简短的回答:

如果您直接使用 SparkSession/SparkContext 读取/加载数据,您将获得纯 Spark DataFrame 而不是 DynamicFrame。

从 spark 读取时的不同选项:

  • 格式:是您正在读取的源格式,因此它可以是 parquet、csv、json、..
  • load:它是您正在读取的源文件/文件的路径:它可以是本地路径、s3 路径、hadoop 路径,...
  • 选项:许多不同的选项,例如 inferSchema,如果您希望火花最适合您,并根据数据样本或 csv 文件中的 header = true 猜测架构。

一个例子:

df = spark.read.format("csv").option("header", true) .option("inferSchema", true).load("s3://path")

前面的示例中没有创建 DynamicFrame,因此 df 将是一个 DataFrame,除非您使用胶水 API 将其转换为 DynamicFrame。


长答案:

Glue 目录只是一个 aws Hive 实现本身。如果需要,您可以创建定义模式、读取器类型和映射的胶水目录,然后它可用于不同的 aws 服务,例如胶水、雅典娜或 redshift-spectrum。我从使用胶水目录中看到的唯一好处实际上是与不同的 aws 服务的集成。

我认为您可以使用爬虫以及与 athena 和 redshift-specturm 的集成从数据目录中获得最大收益,以及使用统一的 API 将它们加载到胶水作业中。

您始终可以使用胶水直接从不同的来源和格式中使用 from_options 胶水方法进行读取,并且您不会丢失胶水的一些出色工具,并且它仍会将其作为 DynamicFrame 读取。

如果您出于任何原因不想从胶水中获取该数据,您只需指定一个 DataFrame Schema 并使用 a 直接读取,SparkSession但请记住,尽管您可以转换该 DataFrame,但您将无法访问书签和其他工具进入一个动态框架。

使用 spark 直接从 s3 读取到 a DataFrame(parquet、json 或 csv 格式的 fe)的示例是:

df = spark.read.parquet("s3://path/file.parquet")
df = spark.read.csv("s3a://path/*.csv")
df= spark.read.json("s3a://path/*.json")

这不会创建任何 DynamicFrame 除非你想将它转换成它,你会得到一个纯 Spark DataFrame。

另一种方法是使用format()方法。

df = spark.read.format("csv").option("header", true) .option("inferSchema", true).load("s3://path")

请记住,对于 csv fe,有几个选项,例如“header”或“inferSchema”,您需要知道是否要使用它们。最佳实践是在生产环境中定义模式,而不是使用 inferSchema,但有几个用例。

此外,如果需要,您可以随时将纯 DataFrame 转换为 DynamicFrame:

DynamicFrame.fromDF(df, glue_context, ..)
于 2021-04-12T10:56:07.610 回答