pandas - pandas_profiling 运行时间过长

Question

如果有人尝试过pandas-profiling 包，请帮助我了解您可能拥有的任何见解，以使其运行得更快。包中的输出报告非常整洁和详细，但是即使使用中等大小的数据集，创建报告也需要很长时间。来自 Kaggle 推土机数据集的大约 10 列和 400K 行耗时 21 分钟（非 GPU）。想知道它是否值得进一步研究。

df.shape
(401125, 9)


start = datetime.datetime.now()
profile = df.profile_report(title="Exploring Dataset")
profile.to_file(output_file=Path("./data_report.html"))

end = datetime.datetime.now()
print(end-start)

0:21:23.976324

score 3 · Accepted Answer

根据您感兴趣的内容，您可以禁用 pandas-profiling 的其他最耗时的功能，因为它是模块化的。目前，这是您加速以及对数据集进行采样的首选解决方案。

这里有几个相关的问题：

从长远来看，我们计划允许更好的并行化和更合理的默认值： https ://github.com/pandas-profiling/pandas-profiling/issues/279

编辑：

由于 v2.4 有最小模式，将包配置为自动使用低计算设置：https ://github.com/pandas-profiling/pandas-profiling#large-datasets

pandas - pandas_profiling 运行时间过长

1 回答 1

Related

Reference