问题标签 [ffbase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 拆分 ffdf 对象
我正在使用ff
和ffbase
库来管理一个大的 csv 文件(~40Go 和 275e6 观察)。我想根据它的一列(这是一个因子列)拆分/分区这个文件。
使用普通的数据框,我会做这样的事情:
但ff
并ffbase
没有split
功能。因此,查看ffbase
文档,我发现ffdfply
并尝试按如下方式使用它:
唉,我收到日志消息:
计算拆分大小
构建拆分位置
,在拆分 1/1 上工作,在 26 个拆分元素的 RAM 中提取数据,
总计 0.00015 GB,而
使用 BATCHBYTES 指定的最大指定数据为 0.01999 GB
... 将 FUN 应用于所选数据
错误:参数“ FUN" 缺失,没有默认值
我试过FUN = as.data.frame
了(因为函数的结果必须是一个数据框)但没有运气:这样做会使 ffa_partition 成为 ffa 的副本...
如何对我的 ffdf 进行分区?
r - R ffdfdply 附加错误
我想将我的数据(data.frame)从长格式转换为宽格式,并将“ITEM”的值作为列和值(“ITEM2”)(见下文):
因此我使用 reshape2 包中的 dcast 函数:
这样做一切正常。
但是在我的数据框中有 7m 条数据记录,我一直在为内存限制而苦苦挣扎。因此,我决定在 ffdf 中转换我的 data.frame 并使用 ffbase 包中的 ffdfdply 函数来投射框架。
为了确保每个拆分都以相同的顺序具有相同的列,我提前从“ITEM”中提取值,如果不存在则附加 N/A 列并按字母顺序对所有列进行排序。
在整个代码下方:
不幸的是,在将第二个拆分的结果附加到第一个拆分时出现以下错误(带有跟踪):
在不附加的情况下只计算一个带有较少记录的拆分可以正常工作。
有人可以帮忙吗?
谢谢你。
r - ffbase:在 X 和 Y 列以及最近的 Z 列上合并
我想使用 ffdf 完成以下操作:合并列 X 和 Y 以及最接近的时间,然后合并关闭列 B。但是,我在较小的样本中知道的过程涉及使用外部合并(如下所示)。对于不适合内存的大样本(并且可能不适用于 sqldf),使用 ffbase 有什么方法可以解决这个问题?如果不可能,那么最好的图书馆是什么?
作为可重现的示例,如下所示:
我在这里从@ChinmayPatil 借用以下示例以突出显示我想遵循的类似过程:(R - 在匹配 A、B 和 *closest* C 时合并数据帧?):
r - 将值重新分配给 ffdf [R] 中的列
我无法在更大的数据集中执行以下操作。我想知道是否有内置的方法可以使用 ff 或 ffdf 来实现。
示例:使用 substr 修改 ffdf 对象中的字符列并将其重新分配为不同的列:
我可以访问“物种”列
但是,如果我想对字符 1 到 3 进行子串化,例如,我会收到以下错误:
修改 ffdf 对象中的列有哪些准则?
编辑
我也尝试了 ffdfdply 方法。相当小的数据似乎需要很长时间:
r - 在 R 中使用 ffbase 进行一对多
我想使用ffdf
. 最好的方法是什么?
下面我将使用 data.tables 提供一个我想要获得的示例。我知道 merge.ffdf 函数的以下描述:
“此方法类似于基础包中的合并,但只允许内连接和左外连接。注意连接是基于 ffmatch 或 ffdfmatch 完成的:只有 y 中的第一个元素将添加到 x”。
但是,我想知道是否有办法解决这个问题。
现在使用 ffdf:
请注意,使用 ffdf 的结果仅包含每个组的第一个元素。获得其余部分的方法是什么?
r - 如何按索引对ffdf进行子集化?
我想按索引对 ffdf 对象进行子集化,返回另一个 ffdf 对象。
subset.ffdf 上的帮助文件表明您可以将范围索引 (ri) 对象作为参数传递,但是当我尝试时:
我收到了这个错误:
根据 You-Leee 的建议,我尝试使用以下代码传递感兴趣索引的逻辑向量:
我尝试运行它两次,每次我的 R-Studio 崩溃并显示消息R encountered a fatal error. The session was terminated.
起初我认为这可能是内存限制,但查看我的活动监视器,我仍然有 8gb 中的 4gb 可用。此外,无论如何,这不应该加载太多到内存中。
r - 使用 ff 包进行克里金模拟
我试图了解如何使用 ff 包来克服错误
同时使用克里金/高斯模拟。我不知道如何更改输入数据。有什么想法可以帮助我做到这一点吗?
我正在使用 gstat 包执行模拟,如下所示:
r - ff:使用单个 ffapply 函数调用返回多个数组
我正在处理一个大型 3D 成像数据数据集,我使用ff()
.
像获取平均数组/“卷”这样的简单调用可以正常工作:
ffapply
但是,在某些情况下,我想在一次调用中返回多个数组/“卷” ;例如,在执行一些基本回归时,例如针对年龄:
这适用于返回单个卷,即fe1_pval
.
有没有办法在一个 ffapply 调用中同时返回fe1_estimate
and fe1_pval
(也许还有更多的估计)?
r - 条件字符列 ffdf 数据
我使用 ffbase 包将一个大数据集(约 600 万行)导入到 R 中,该包列出了在巴西就读高中的人。原则上,我有 2 列:Id(学生 ID 号)和 University(机构名称)。
我想创建一个列 - 在我的示例中名为 Group - 将每所大学与其教育组相关联:
PS:我的数据集中没有关于教育群体的信息,但是,我有我需要的关于哪个群体对应于每所大学的信息。这样,我需要将此详细信息附加到我的数据中。
PS2:大学列的类是ff_vector。
我感谢您可能做出的任何贡献。
r - 基本示例不适用于 ffbase-package 中的 ffwhich
我正在尝试使用 OHDSI:s 版本的SelfControlledCaseSeries
包,它利用ff
包来处理大数据。但是该ffwhich
功能无法正常工作。ffwhich
运行文档中提供的以下示例:
给我
我尝试设置batchbytes
更小的东西,在另一台计算机上运行脚本,还更改了 ff 文件的存储位置,但错误仍然存在。
有想法该怎么解决这个吗?