great-expectations - 当有很多列时，SparkDF 上的 Great Expectation 分析需要很长时间

Question

我需要在 Databricks 中分析来自雪花的数据。数据只是 100 行的样本，但包含 3k+ 列，最终会有更多行。当我减少列数时，分析完成得非常快，但是列越多，它得到的时间就越长。我尝试对样本进行分析，10 多小时后，我不得不取消这项工作。

这是我使用的代码

df = spark.read.format('snowflake').options(**sfOptions).option('query', f'select * from {db_name}')

df_ge = ge.dataset.SparkDFDataset(df_sf)

BasicDatasetProfiler.profile(df_ge)

您可以使用具有大量列的任何数据进行测试。这是正常的还是我做错了什么？

score 0 · Accepted Answer

基本上，GE 单独计算每列的指标，因此，它collect为每列和它计算的每个指标执行一个操作（可能是 a ）。collects 是您可以在 spark 上进行的最昂贵的操作，因此这几乎是正常的，您拥有的列越多，所需的时间就越长。

great-expectations - 当有很多列时，SparkDF 上的 Great Expectation 分析需要很长时间

1 回答 1

Related

Reference