数据不是很干净,但可以毫无问题地与 pandas 一起使用。pandas 库为 EDA 提供了许多非常有用的功能。
但是,当我对大数据(即 10 列的 1 亿条记录)使用分析时,从数据库表中读取它时,它没有完成,我的笔记本电脑内存不足,csv 中的数据大小约为 6 GB,我的 RAM 为 14 GB 我的空闲使用量约为 3 - 4 GB。
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df)
profile.to_file(outputfile="myoutput.html")
我也尝试过check_recoded = False
选项。但它无助于完全分析。有没有办法分块和读取数据并最终生成一个整体的汇总报告?或任何其他将此函数用于大型数据集的方法。