python - 远大的期望需要很长时间

Question

假设我们有一个大约 17,000 行的 PySpark 数据框，并且想要检查列“a”是否不为空。以下代码需要多长时间才能运行：

import great_expectations as ge
# results_all is a list of PySpark Data Frames and its length is currently 1
for df in results_all:
    dq = ge.dataset.SparkDFDataset(df)
    r1 = dq.expect_column_values_to_not_be_null('a')
    print(r1)

到目前为止，它已经花费了大约 14 个小时，并且仍然作为胶水作业运行。这是预期的吗？

score 0 · Accepted Answer

如果您可以共享作业日志，将会很有帮助。

可能有多种原因：

我假设您在 GLUE 代码中使用外部库，因此可能存在与库安装相关的问题。
您如何派生列表 result_all [数据帧列表]，是从外部数据源填充的数据帧，由于防火墙/VPC 限制，可能无法处理

python - 远大的期望需要很长时间

1 回答 1

Related

Reference