“ffbase”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

218 浏览

r - 拆分 ffdf 对象

我正在使用ff和ffbase库来管理一个大的 csv 文件（~40Go 和 275e6 观察）。我想根据它的一列（这是一个因子列）拆分/分区这个文件。

使用普通的数据框，我会做这样的事情：

但ff并ffbase没有split功能。因此，查看ffbase文档，我发现ffdfply并尝试按如下方式使用它：

唉，我收到日志消息：

计算拆分大小
构建拆分位置
，在拆分 1/1 上工作，在 26 个拆分元素的 RAM 中提取数据，
总计 0.00015 GB，而
使用 BATCHBYTES 指定的最大指定数据为 0.01999 GB
... 将 FUN 应用于所选数据
错误：参数“ FUN" 缺失，没有默认值

我试过FUN = as.data.frame了（因为函数的结果必须是一个数据框）但没有运气：这样做会使 ffa_partition 成为 ffa 的副本...

如何对我的 ffdf 进行分区？

r ff ffbase

2016-05-20T10:20:37.520

0 投票

0 回答

103 浏览

r - R ffdfdply 附加错误

我想将我的数据（data.frame）从长格式转换为宽格式，并将“ITEM”的值作为列和值（“ITEM2”）（见下文）：

长格式

宽幅

因此我使用 reshape2 包中的 dcast 函数：

这样做一切正常。

但是在我的数据框中有 7m 条数据记录，我一直在为内存限制而苦苦挣扎。因此，我决定在 ffdf 中转换我的 data.frame 并使用 ffbase 包中的 ffdfdply 函数来投射框架。

为了确保每个拆分都以相同的顺序具有相同的列，我提前从“ITEM”中提取值，如果不存在则附加 N/A 列并按字母顺序对所有列进行排序。

在整个代码下方：

不幸的是，在将第二个拆分的结果附加到第一个拆分时出现以下错误（带有跟踪）：

在不附加的情况下只计算一个带有较少记录的拆分可以正常工作。

有人可以帮忙吗？

谢谢你。

r apply reshape2 ffbase dcast

2016-12-08T10:46:57.097

0 投票

1 回答

58 浏览

r - ffbase：在 X 和 Y 列以及最近的 Z 列上合并

我想使用 ffdf 完成以下操作：合并列 X 和 Y 以及最接近的时间，然后合并关闭列 B。但是，我在较小的样本中知道的过程涉及使用外部合并（如下所示）。对于不适合内存的大样本（并且可能不适用于 sqldf），使用 ffbase 有什么方法可以解决这个问题？如果不可能，那么最好的图书馆是什么？

作为可重现的示例，如下所示：

我在这里从@ChinmayPatil 借用以下示例以突出显示我想遵循的类似过程：（R - 在匹配 A、B 和 *closest* C 时合并数据帧？）：

r ff ffbase

2017-01-24T02:20:29.127

0 投票

1 回答

834 浏览

r - 将值重新分配给 ffdf [R] 中的列

我无法在更大的数据集中执行以下操作。我想知道是否有内置的方法可以使用 ff 或 ffdf 来实现。

示例：使用 substr 修改 ffdf 对象中的字符列并将其重新分配为不同的列：

我可以访问“物种”列

但是，如果我想对字符 1 到 3 进行子串化，例如，我会收到以下错误：

修改 ffdf 对象中的列有哪些准则？

编辑

我也尝试了 ffdfdply 方法。相当小的数据似乎需要很长时间：

r ff ffbase

2017-04-04T22:53:04.550

0 投票

1 回答

142 浏览

r - 在 R 中使用 ffbase 进行一对多

我想使用ffdf. 最好的方法是什么？

下面我将使用 data.tables 提供一个我想要获得的示例。我知道 merge.ffdf 函数的以下描述：

“此方法类似于基础包中的合并，但只允许内连接和左外连接。注意连接是基于 ffmatch 或 ffdfmatch 完成的：只有 y 中的第一个元素将添加到 x”。

但是，我想知道是否有办法解决这个问题。

现在使用 ffdf：

请注意，使用 ffdf 的结果仅包含每个组的第一个元素。获得其余部分的方法是什么？

r ff ffbase

2017-04-19T23:25:49.910

0 投票

1 回答

428 浏览

r - 如何按索引对ffdf进行子集化？

我想按索引对 ffdf 对象进行子集化，返回另一个 ffdf 对象。

subset.ffdf 上的帮助文件表明您可以将范围索引 (ri) 对象作为参数传递，但是当我尝试时：

我收到了这个错误：

根据 You-Leee 的建议，我尝试使用以下代码传递感兴趣索引的逻辑向量：

我尝试运行它两次，每次我的 R-Studio 崩溃并显示消息R encountered a fatal error. The session was terminated.起初我认为这可能是内存限制，但查看我的活动监视器，我仍然有 8gb 中的 4gb 可用。此外，无论如何，这不应该加载太多到内存中。

r ff ffbase

2017-11-15T23:03:10.387

0 投票

1 回答

93 浏览

r - 使用 ff 包进行克里金模拟

我试图了解如何使用 ff 包来克服错误

同时使用克里金/高斯模拟。我不知道如何更改输入数据。有什么想法可以帮助我做到这一点吗？

我正在使用 gstat 包执行模拟，如下所示：

r ff gstat ffbase

2018-01-30T11:54:50.663

0 投票

1 回答

109 浏览

r - ff：使用单个 ffapply 函数调用返回多个数组

我正在处理一个大型 3D 成像数据数据集，我使用ff().

像获取平均数组/“卷”这样的简单调用可以正常工作：

ffapply但是，在某些情况下，我想在一次调用中返回多个数组/“卷” ；例如，在执行一些基本回归时，例如针对年龄：

这适用于返回单个卷，即fe1_pval.

有没有办法在一个 ffapply 调用中同时返回fe1_estimateand fe1_pval（也许还有更多的估计）？

r statistics lm ff ffbase

2018-07-02T20:04:13.467

0 投票

1 回答

54 浏览

r - 条件字符列 ffdf 数据

我使用 ffbase 包将一个大数据集（约 600 万行）导入到 R 中，该包列出了在巴西就读高中的人。原则上，我有 2 列：Id（学生 ID 号）和 University（机构名称）。

我想创建一个列 - 在我的示例中名为 Group - 将每所大学与其教育组相关联：

PS：我的数据集中没有关于教育群体的信息，但是，我有我需要的关于哪个群体对应于每所大学的信息。这样，我需要将此详细信息附加到我的数据中。

PS2：大学列的类是ff_vector。

我感谢您可能做出的任何贡献。

r ffbase

2019-05-02T23:15:21.667

0 投票

1 回答

112 浏览

r - 基本示例不适用于 ffbase-package 中的 ffwhich

我正在尝试使用 OHDSI:s 版本的SelfControlledCaseSeries包，它利用ff包来处理大数据。但是该ffwhich功能无法正常工作。ffwhich运行文档中提供的以下示例：

给我

我尝试设置batchbytes更小的东西，在另一台计算机上运行脚本，还更改了 ff 文件的存储位置，但错误仍然存在。

有想法该怎么解决这个吗？

r ff ffbase

2019-09-18T11:58:53.253

问题标签 [ffbase]

Reference