问题标签 [ffbase]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 问题

0 投票

0 回答

257 浏览

r - 找不到函数“as.data.frame.ffdf”

我正在使用 R 遵循 Big Data Analytics指南。但as.data.frame.ffdf似乎缺少该功能。

有人有想法吗？或者有没有替代的解决方案？

这是示例代码：

r ff ffbase

2021-04-14T14:28:41.353

0 投票

0 回答

144 浏览

r - 将 dplyr::group_by 应用于 ffdf 类时出错

谁能帮我解决以下问题

抛出错误：

但是，在包的 github 上，我看到了 dplyr::group_by https://github.com/edwindj/ffbase2/blob/master/R/grouped-ffdf.r的测试

我的 dplyr 版本是 1.0.6

r dplyr ffbase

2021-05-26T14:27:52.063

0 投票

0 回答

21 浏览

r - 使用 ffdfdply() 汇总大量数据

我有几个非常大的数据集（.csv 文件，从 4 到 9 GB）。我使用ff和ffbase包将它们加载到 R 中并计算能量消耗值的每日平均值、总和和最大值。该脚本适用于 19 个文件中的 15 个，但现在它突然不再起作用了。我仍然认为自己是 R 的新手，我只是在学习如何处理这些巨大的文件。

这是脚本（在此处找到：使用 R 中的 ffdfdply 函数进行聚合）：

所以正如我所说，它适用于 15 个文件，但有四个文件在使用 ffdfdply 时会出现以下错误：

如果有人知道如何解决这个问题，或者可能以另一种方式按日期聚合/汇总平均值、总和和最大值，我将不胜感激。提前致谢！

r large-data large-files ff ffbase

2021-11-02T16:55:41.780

0 投票

1 回答

107 浏览

r - 如何加快检查大量 ffdf 的重复项

我有一个列表ffdf，如果它被加载到 RAM 而不是使用 package.json ，它会占用大约 76GB 的 RAM ff。以下是他们各自的dim()

我想检查每个中的重复次数ffdf，所以我做了以下事情：

它可以工作，但速度非常慢。

我在 HPC 上，我有大约 110GB RAM 和 18CPU。

是否有任何其他选项或设置我可以调整以加快该过程？谢谢你。

r hpc ff ffbase

2021-12-31T01:44:45.980

1 2 3 4 5 6 7 8 9 10

问题标签 [ffbase]

r - 找不到函数“as.data.frame.ffdf”

r - 将 dplyr::group_by 应用于 ffdf 类时出错

r - 使用 ffdfdply() 汇总大量数据

r - 如何加快检查大量 ffdf 的重复项

Reference