我正在使用 AWS Glue 并为我的 ETL 使用 pyspark API。我相信如果我需要使用 Amazon Deequ,我需要切换到 Scala。但是我仍然希望继续使用 Pyspark API。有出路吗?如果是,我需要在 AWS Glue 中遵循哪些步骤?
谢谢
我正在使用 AWS Glue 并为我的 ETL 使用 pyspark API。我相信如果我需要使用 Amazon Deequ,我需要切换到 Scala。但是我仍然希望继续使用 Pyspark API。有出路吗?如果是,我需要在 AWS Glue 中遵循哪些步骤?
谢谢
Deequ 有一个 Python 包装器,称为PyDeequ,它应该可以工作,尽管我自己没有使用它。
如果您想使用 Python,我建议您查看实现与 Deequ 非常相似的功能的Great Expectations 库,包括对 PySpark 的支持。