我需要在 18gb 数据集上使用聚合函数,该数据集包含 CSV 格式的数字和分类数据集(在某些情况下有超过 6000 万条记录)。
我尝试了各种软件包,如 ff 或 bigmemory 但没有成功。问题是我必须按某些列的值对数据进行分组,将给定的用户定义函数应用于聚合函数的一列或拆分函数的多列。
一个简短的例子:
country day month year f person_id age...
1 23 01 2014 4005 5000 20...
1 23 01 20014 4005 244 43...
....
按国家和月份分组,我们想知道在 data.frame 或 data.table 上聚合的乘客数量(不支持大型数据集)或按年龄和性别分组应用对 contry day 月份和日期的分析,因为 split 函数可以在 data.frame 或 data.table 上做(所以没有大的数据集)。
各位大佬能告诉我解决办法吗?请任何提示都会有所帮助。非常感谢合作!