0

我知道我们可以使用gluecontext动态框架从dynamoDB读取数据,使用它会消耗更多的时间来读取。考虑下面的示例以从 S3 读取相同的数据

USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds

然而

USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes

那么有没有办法使用 PYSPARK DATAFRAME 从 DYNAMOBD 读取数据?

********经过一些研究********

https://github.com/audienceproject/spark-dynamodb

使用上述连接器并能够从本地机器读取和显示数据。

由于 aws 胶水使用的是 spark 2.4,因此下载了 spark-dynamidb_2.11-1.0.3.jar 并上传到 s3 并在 python 库路径中提到了 s3 URI。

在运行作业时,它会抛出 o.88.showString.com.audienceproject.spark.dynamodb.datasource.ScanPartition

任何想法如何在 AWS GLUE 中使用这个包?

4

0 回答 0