我正在尝试将 dask bag 用于 wordcount 30GB 的 json 文件,我严格按照官方网站的教程:http: //dask.pydata.org/en/latest/examples/bag-word-count-hdfs.html
但是还是不行,我的单机是32GB内存和8核CPU。
我在下面的代码,我曾经处理 10GB 文件甚至无法正常工作,错误运行了几个小时而没有任何通知 jupyter 已崩溃,我在 Ubuntu 和 Windows 上尝试过这两个系统都是同样的问题。所以我怀疑dask bag是否可以处理内存不足的数据?还是我的代码不正确?
来自http://files.pushshift.io/reddit/comments/的测试数据
import dask.bag as db
import json
b = db.read_text('D:\RC_2015-01\RC_2012-04')
records = b.map(json.loads)
result = b.str.split().concat().frequencies().topk(10, lambda x: x[1])
%time f = result.compute()
f