问题标签 [ffbase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
257 浏览

r - 找不到函数“as.data.frame.ffdf”

我正在使用 R 遵循 Big Data Analytics指南。但as.data.frame.ffdf似乎缺少该功能。

有人有想法吗?或者有没有替代的解决方案?

这是示例代码:

0 投票
0 回答
144 浏览

r - 将 dplyr::group_by 应用于 ffdf 类时出错

谁能帮我解决以下问题

抛出错误:

但是,在包的 github 上,我看到了 dplyr::group_by https://github.com/edwindj/ffbase2/blob/master/R/grouped-ffdf.r的测试

我的 dplyr 版本是 1.0.6

0 投票
0 回答
21 浏览

r - 使用 ffdfdply() 汇总大量数据

我有几个非常大的数据集(.csv 文件,从 4 到 9 GB)。我使用ffffbase包将它们加载到 R 中并计算能量消耗值的每日平均值、总和和最大值。该脚本适用于 19 个文件中的 15 个,但现在它突然不再起作用了。我仍然认为自己是 R 的新手,我只是在学习如何处理这些巨大的文件。

这是脚本(在此处找到:使用 R 中的 ffdfdply 函数进行聚合):

所以正如我所说,它适用于 15 个文件,但有四个文件在使用 ffdfdply 时会出现以下错误:

如果有人知道如何解决这个问题,或者可能以另一种方式按日期聚合/汇总平均值、总和和最大值,我将不胜感激。提前致谢!

0 投票
1 回答
107 浏览

r - 如何加快检查大量 ffdf 的重复项

我有一个列表ffdf,如果它被加载到 RAM 而不是使用 package.json ,它会占用大约 76GB 的 RAM ff。以下是他们各自的dim()

我想检查每个中的重复次数ffdf,所以我做了以下事情:

它可以工作,但速度非常慢。

我在 HPC 上,我有大约 110GB RAM 和 18CPU。

是否有任何其他选项或设置我可以调整以加快该过程?谢谢你。