问题标签 [ffbase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ff/ffbase R 包中的 Data.table setDT 功能
计算包中的条件均值列ff/ffbase
。我正在搜索ff/ffbase
包中的功能,这允许我进行类似于以下使用data.table
包进行的数据操作:
中有一个条件均值函数ffbase
,但是,它创建了 中的类数长度的向量irisdf[,5]
:
,而不是长度为 的新向量nrow(irisdf)
。
正如@BondedDust 建议的那样ave(base)
给出正确的输出:
所以最后一个问题是,如何添加VectorOfMeans
,irisdf
我试过下面的代码,它有效:
使用来自SO答案的cbind.ffdf2,但我想,这个SO问题是关于更具体的问题,然后是主要的,我想有一种更简单(更快)的方法可以做到这一点。我希望能够在获得的数据集上运行(例如),你应该看看我关于合并的问题和在这种情况下(因为物理/虚拟存储模式存在我不详细了解的问题)。bigglm.ff
irisdf
VectorOfMeans
irisdf
r - 如何从 ffdf 对象中删除列?(右)
我可以轻松删除ffdf
对象列吗?
如何只包含Sepal.length
和Species
列?
r - 为什么在 ffbase2 (dplyr_ffbase) 中汇总显示“as.vmode.default() (list) 对象中的错误不能强制输入'double'”?
我有一个包含 10 列的大型(2300 万行)ffdf 表(tbl_ffdf),其中 7 个是因子,3 个包含数字。它看起来像这样:
我想用 sum(Nx) 聚合数据以删除这种重复项并使我的表如下所示:
我正在使用从 github 安装的包 ffbase2(对于 ffdf 表来说是 dplyr)。我正在做以下事情:
然后它工作〜10秒并说
之后,它会根据我的 Rstudio 中的设置进入调试模式,他需要大约 3-5 分钟才能深入,停止挂起计算机并显示出错的功能代码:
在 Data 中,我们可以看到 x 是 F1 值的 data.frame。在 Traceback - 函数中
观察 ffbase2 的源代码并没有给我太多...我有类似方法 summarise_.grouped_ffdf 使用数据的递归切片,并且可能在最后一步它得到一些 data.frame 但想要得到一个矩阵?...这是“(列表)对象不能被强制输入'double'”错误的常见原因。
我不知道这个错误的真正原因是什么以及如何解决它。请帮忙!:-)
r - R - ff 包:查找 ffdf 中出现频率最高的元素,并删除所在行
我需要一个建议来找到 ffdf 中最常见的元素,然后删除所在的行。我决定尝试使用 ff 包,因为我正在处理非常大的数据并且基本 RI 内存不足。
这是一个小例子:
我在找:
- 导出 ffdf 中出现频率最高的元素(在本例中为“b”)
- 从ffdf中删除“b”所在的所有行
因此,新的 ffdf 必须如下:
在基础 RI 中找到了“table”函数的方法
但是处理大量数据我需要 ff 包之类的东西。
r - 逐渐在磁盘上增长一个 ffdf 数据帧
从 save.ffdf 的文档中:
使用“save.ffdf”会自动将“ff”向量的“终结器”设置为“关闭”。这意味着当对象被删除或 R 会话关闭时,数据将保留在磁盘上。可以使用“删除”或删除保存对象的目录(“目录”)来删除数据。
我想从一个小的 ffdf 数据框开始,一次添加一点新数据,然后在磁盘上增长它。于是我做了一个小实验:
事实证明,当我删除 ffiris 时,它不会自动更新磁盘上的 ff 数据。手动保存呢?
嗯,还是没有运气。为什么?
在保存之前删除文件夹怎么样?
甚至更陌生。即使这一切都有效,它仍然会非常低效。我正在寻找类似的东西:
有人可以帮忙吗?
r - ffbase::as.character 中的“by”参数有什么作用?
在下面的帖子中,
有这样一条线。
只是出于好奇,我想知道by
参数是什么意思。它似乎与ff
数据框有关,但我不确定。谷歌搜索和 R 文档as.character
并as.vector
没有提供任何有用的信息。
我尝试了一些示例,但下面的代码给出了相同的结果。
如果有人能告诉我它是什么,我将不胜感激。先感谢您。
r - 将包含字符数据的列添加到 ffdf
我试图在我的 ffdf 中添加一个 Source 列,但似乎无法让它工作......如果它是一个普通的 df 我会简单地写
如果我为 ffdf 执行此操作,它会返回错误
有任何想法吗?
r - 大数据帧的高效组合和操作
我在 R 中有 2 个相对较大的数据框。我正在尝试尽可能高效地合并/查找所有组合。结果 df 变得很大(长度为dim(myDF1)[1]*dim(myDF2)[1]
),因此我尝试使用ff
. 我也愿意使用其他解决方案,例如bigmemory
解决这些内存问题的包。我对这些软件包中的任何一个几乎都没有经验。
工作示例 - 假设我正在使用一些类似于 USArrests 的数据框:
现在,我将制作 2 个数据框,它们代表来自 myNames 的一些特定观察集。稍后我将尝试通过它们的行名来引用它们。
例如,我在 myDF1 中的第一组状态是myNames[unlist(myDF1[1, ]), ]
. 然后我将使用以下命令找到 myDF1 和 myDF2 的所有组合ikey
:
1)有没有更快的方法来排序?
2) 这种组合是否有替代方案(不使用 RAM)?
最后,我希望能够按行/列引用任何原始数据。具体来说,我想获得不同类型的 rowSums。例如:
3)最终,我想要一个带有上述 rowSum 的向量,所以我可以在myDF
. 关于如何最有效地做到这一点的任何建议?
谢谢!
r - log2 变换 ff 对象
我想 log2ff
从ff
包中转换对象中的所有数值。
使用我的df
:
我尝试了以下代码,但出现错误:
有没有办法将此功能应用于ff
对象?
r - 如何总结 table.ff 中的列或如何将其转换为可行的形式
r 中 table.ff 对象的“性质”是什么?table.ff 的 dim 为 N ULL,通常用于频率测量。我找不到将所有列添加在一起的任何功能,以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...
提前感谢您的任何想法!