1

我正在使用 AWS Glue 并为我的 ETL 使用 pyspark API。我相信如果我需要使用 Amazon Deequ,我需要切换到 Scala。但是我仍然希望继续使用 Pyspark API。有出路吗?如果是,我需要在 AWS Glue 中遵循哪些步骤?

谢谢

4

1 回答 1

1

Deequ 有一个 Python 包装器,称为PyDeequ,它应该可以工作,尽管我自己没有使用它。

如果您想使用 Python,我建议您查看实现与 Deequ 非常相似的功能的Great Expectations 库,包括对 PySpark 的支持。

于 2020-10-04T15:32:42.310 回答