问题标签 [ffbase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 找不到函数“as.data.frame.ffdf”
我正在使用 R 遵循 Big Data Analytics指南。但as.data.frame.ffdf
似乎缺少该功能。
有人有想法吗?或者有没有替代的解决方案?
这是示例代码:
r - 将 dplyr::group_by 应用于 ffdf 类时出错
谁能帮我解决以下问题
抛出错误:
但是,在包的 github 上,我看到了 dplyr::group_by https://github.com/edwindj/ffbase2/blob/master/R/grouped-ffdf.r的测试
我的 dplyr 版本是 1.0.6
r - 使用 ffdfdply() 汇总大量数据
我有几个非常大的数据集(.csv 文件,从 4 到 9 GB)。我使用ff和ffbase包将它们加载到 R 中并计算能量消耗值的每日平均值、总和和最大值。该脚本适用于 19 个文件中的 15 个,但现在它突然不再起作用了。我仍然认为自己是 R 的新手,我只是在学习如何处理这些巨大的文件。
这是脚本(在此处找到:使用 R 中的 ffdfdply 函数进行聚合):
所以正如我所说,它适用于 15 个文件,但有四个文件在使用 ffdfdply 时会出现以下错误:
如果有人知道如何解决这个问题,或者可能以另一种方式按日期聚合/汇总平均值、总和和最大值,我将不胜感激。提前致谢!
r - 如何加快检查大量 ffdf 的重复项
我有一个列表ffdf
,如果它被加载到 RAM 而不是使用 package.json ,它会占用大约 76GB 的 RAM ff
。以下是他们各自的dim()
我想检查每个中的重复次数ffdf
,所以我做了以下事情:
它可以工作,但速度非常慢。
我在 HPC 上,我有大约 110GB RAM 和 18CPU。
是否有任何其他选项或设置我可以调整以加快该过程?谢谢你。