python - 如何将 pandas_profiling 与大型数据库表一起使用

Question

我正在尝试使用 pandas_profiling 来分析表。它有大约 20 列，其中大部分是浮动的，并且有近 300 万条记录。

我收到以下错误：

Traceback（最近一次调用最后一次）：文件“V:\Python\prof.py”，第 53 行，在 if name ==“ main ”：main() 文件“V:\Python\prof.py”，第 21 行，在主 df = pd.read_sql(query, sql_conn) 文件“C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py”，第 380 行，在read_sql chunksize=chunksize) 文件“C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py”，第 1477 行，在 read_query data = self._fetchall_as_list(光标）文件“C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py”，第 1486 行，_fetchall_as_ 列表结果 = cur.fetchall() MemoryError

我试过用更少的记录来工作。

有没有办法绕过这个错误？看起来这是一个内存限制。我们可以换一种方式吗？或者用 Python 是不可能的？

谢谢你的帮助

score 0 · Accepted Answer

如果您能够提供信息以便我们复制错误，我们可以解决它。我建议在github 页面上打开一个问题。

披露：我是这个包的合著者。

python - 如何将 pandas_profiling 与大型数据库表一起使用

1 回答 1

Related

Reference