问题标签 [ff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2033 浏览

r - R中的子集ffdf对象

我正在使用 R 的ff包,我有一些ffdf需要处理的对象(尺寸约为 1.5M x 80)。不过,我在了解有效的切片/切块操作时遇到了一些麻烦。

例如,我有两个名为“YEAR”和“AGE”的整数列,我想在 YEAR 为 2005 时制作一个 AGE 表。

一种方法是:

操作速度很快,table()但构建位向量非常慢。有人有更好的建议吗?

0 投票
1 回答
814 浏览

r - ffdfdply 函数使 R 崩溃并且非常慢

学习如何在 R 中为大型数据集(超过 1 或 2 GB)计算任务,我正在尝试使用ff包和ffdfdply函数。(有关如何使用,请参阅此链接ffdfdplyR 语言:计算“分组依据”或使用 ff 包拆分的问题

我的数据有以下列:
“id”“birth_date”“diagnose”“date_diagnose”

每个“id”有几行,我想提取第一个诊断日期。

我会应用这个:

这很奇怪,但是这个命令:ffdfdply(x = data.f, .... )正在使 RStudio(和 R)崩溃。有时相同的命令会使 R 崩溃,有时不会。例如,如果我再次触发该ffdfdply行(第一次工作),R 将崩溃。

同样使用其他函数、数据等也会有同样的效果。没有内存增加,或者log.txt中的任何内容。应用 summaryBy "technique" 时的相同行为....

因此,如果有人遇到同样的问题并找到了解决方案,那将非常有帮助。也ffdfdply变得非常慢(比 SAS 慢......),我正在考虑制定另一种策略来完成此类任务。

是否ffdfdply考虑到例如数据集按 id 排序?(因此它不必查看所有数据以获取相同的 id...)。

因此,如果有人知道解决此ddply问题的其他方法,那么对于所有“R 中具有低 RAM 内存的大型数据集”用户来说,这将是非常棒的。

这是我的sessionInfo()

0 投票
1 回答
984 浏览

r - 替换 ffdf 对象中的 NA

我正在使用在某些列中具有 NA 的 ffdf 对象。NA 是使用merge.ffdf进行左外部合并的结果。我想用 0 替换 NA,但无法做到。这是我正在运行的代码:

知道我做错了什么吗?一般来说,我想了解更多关于替换 ff 和 ffdf 类的方法。有什么建议可以让我找到有关该主题的一些示例吗?

0 投票
1 回答
1239 浏览

r - 删除行ff包

一段时间以来,我一直在使用 ff 包来处理大数据。我使用过的 R 对象有大约 130.000.000 行和 14 列。其中两列温度和降水缺少值“NA”,因此我需要删除这些行才能继续我的工作。我一直在尝试像在普通 R 对象中那样做:

但我不断收到错误消息:

有没有人能够删除 ffdf 对象中的行?我会很感激任何帮助。

0 投票
3 回答
2104 浏览

r - ff 包写入错误

我正在尝试使用 R 处理 1909x139352 数据集。由于我的计算机只有 2GB 的 RAM,因此数据集对于传统方法来说太大(500MB)。所以我决定使用这个ff包。但是,我遇到了一些麻烦。该函数read.table.ffdf无法读取第一块数据。它崩溃并出现下一个错误:

有谁知道发生了什么?

0 投票
2 回答
2155 浏览

r - ff package in R: how to move data from one drive to another, and change filenames

I am working intensively with the amazing ff and ffbase package. Due to some technical details, I have to work in my C: drive with my R session. After finishing that, I move the generated files to my P: drive (using cut/paste in windows, NOT using ff).

The problem is that when I load the ffdf object:

I get the error:

This is ok, because nobody told the ffdf object that it was moved, but trying :

or

does not help, giving the error:

Is there any way to "change" into the ffdf object the path for the files new location? Thank you !!

0 投票
1 回答
150 浏览

r - 如何使用 ffload 中的列表功能来选择性地加载 ffdf?

如何正确使用该list功能ffload来选择性地加载一部分ffdf

我读过很多次,可以有选择地加载 ff 数据帧的一部分,但似乎无法让它自己工作。

我的问题是我正在尝试与具有唯一 ID 列表的向量执行合并,但 ffdf 文件太大,我的计算机无法处理此合并。

到目前为止,我一直在尝试使用ffinfo来获取组成我的ffdf.

例如,我得到以下 ffdf 的“文件部分”列表:

wherepaste(imp_tables_root_loc,table_name,sep="")指定 ffdf 表及其位置

然后我尝试通过调用 ffload:

但这会导致此错误:

ffload 错误(file = paste(imp_tables_root_loc, table_name, sep = ""), : not in ffarchive: "ffdf1590409e251b.ff",

0 投票
1 回答
657 浏览

r - R中的列绑定ff数据帧

我尝试使用 ff 包。在这种情况下,我尝试 cbind 两个 ff 数据帧。我找到了一个将 ffdf 与 ff 矢量结合的解决方案,但我如何结合到 ffdf。这是我将 ffdf 与 ff 矢量结合的代码:

非常感谢你的帮助

0 投票
1 回答
562 浏览

r - 从 ffdf 对象对数据框进行计算

我正在处理一个大型数据集(350 万行和 40 列),我需要清除一些值,以便在我开始围绕数据构建模型时计算我需要的其他参数。

问题是应用我一直在使用的 for 循环需要很长时间,所以我想尝试使用 ff 包。数据框称为数据,它由银行的一堆客户信息组成。它被导入为 .csv 文件。我需要做的是删除所有客户(标记为 Serial),如果他们的 AverageStanding 变量为负数

这是我收到的错误:

关于如何避免这些错误的任何想法?

0 投票
1 回答
476 浏览

r - R - ff 包 - 矩阵上的算术运算

有没有办法对 ff 类矩阵进行简单的算术运算?即是这样的:

我知道 ffbase 可以在向量上做到这一点,但还没有找到任何矩阵。谢谢。