我知道我们可以使用gluecontext动态框架从dynamoDB读取数据,使用它会消耗更多的时间来读取。考虑下面的示例以从 S3 读取相同的数据
USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds
然而
USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes
那么有没有办法使用 PYSPARK DATAFRAME 从 DYNAMOBD 读取数据?
********经过一些研究********
https://github.com/audienceproject/spark-dynamodb
使用上述连接器并能够从本地机器读取和显示数据。
由于 aws 胶水使用的是 spark 2.4,因此下载了 spark-dynamidb_2.11-1.0.3.jar 并上传到 s3 并在 python 库路径中提到了 s3 URI。
在运行作业时,它会抛出 o.88.showString.com.audienceproject.spark.dynamodb.datasource.ScanPartition
任何想法如何在 AWS GLUE 中使用这个包?