我正在 AWS EMR 上执行一个 pyspark 应用程序,该应用程序配置为使用 AWS Glue 数据目录作为元存储。我在 AWS Glue 中有一个指向 DynamoDB 表的表设置。现在在我的 pyspark 脚本中,我正在尝试访问 Glue 表。我能够做到show tables
并且能够看到胶水表。但是当我尝试查询表格时,我遇到了异常,
pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: arn:aws:dynamodb:<region>:<acct_id>:table/DDBTABLE;'
我在 pyspark 脚本中的查询:
spark.sql("select * from ddbtable").show()
在这方面找不到任何好的参考。我看到人们谈论spark.sql.warehouse.dir
. 但不确定它与粘合数据目录有何关系。任何输入?