如果有人尝试过pandas-profiling 包,请帮助我了解您可能拥有的任何见解,以使其运行得更快。包中的输出报告非常整洁和详细,但是即使使用中等大小的数据集,创建报告也需要很长时间。来自 Kaggle 推土机数据集的大约 10 列和 400K 行耗时 21 分钟(非 GPU)。想知道它是否值得进一步研究。
df.shape
(401125, 9)
start = datetime.datetime.now()
profile = df.profile_report(title="Exploring Dataset")
profile.to_file(output_file=Path("./data_report.html"))
end = datetime.datetime.now()
print(end-start)
0:21:23.976324