我需要在 Databricks 中分析来自雪花的数据。数据只是 100 行的样本,但包含 3k+ 列,最终会有更多行。当我减少列数时,分析完成得非常快,但是列越多,它得到的时间就越长。我尝试对样本进行分析,10 多小时后,我不得不取消这项工作。
这是我使用的代码
df = spark.read.format('snowflake').options(**sfOptions).option('query', f'select * from {db_name}')
df_ge = ge.dataset.SparkDFDataset(df_sf)
BasicDatasetProfiler.profile(df_ge)
您可以使用具有大量列的任何数据进行测试。这是正常的还是我做错了什么?