我想知道这种方法对于一个项目来说是否过大。我有一个 4gb 的文件,显然我的电脑无法处理。使用 Blaze 将文件拆分为更易于管理的文件大小并使用 pandas 打开并使用 Bokeh 进行可视化会不会过大?
我知道 Pandas 有一个“块”功能,但我想拆分它们的原因是因为我需要分析与特定名称相关的特定行。
有没有一种不同的方法不会让我的笔记本电脑崩溃并且不需要设置 Hadoop 或任何 AWS 服务?
熊猫分块pd.read_csv(..., chunksize=...)
效果很好。
或者dask.dataframe模仿 Pandas 界面并为您处理分块。