问题标签 [ffbase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1281 浏览

r - ff/ffbase R 包中的 Data.table setDT 功能

计算包中的条件均值列ff/ffbase。我正在搜索ff/ffbase包中的功能,这允许我进行类似于以下使用data.table包进行的数据操作:

中有一个条件均值函数ffbase,但是,它创建了 中的类数长度的向量irisdf[,5]

,而不是长度为 的新向量nrow(irisdf)

正如@BondedDust 建议的那样ave(base)给出正确的输出:

所以最后一个问题是,如何添加VectorOfMeansirisdf我试过下面的代码,它有效:

使用来自SO答案的cbind.ffdf2,但我想,这个SO问题是关于更具体的问题,然后是主要的,我想有一种更简单(更快)的方法可以做到这一点。我希望能够在获得的数据集上运行(例如),你应该看看我关于合并的问题和在这种情况下(因为物理/虚拟存储模式存在我不详细了解的问题)。bigglm.ffirisdfVectorOfMeansirisdf

0 投票
2 回答
1407 浏览

r - 如何从 ffdf 对象中删除列?(右)

我可以轻松删除ffdf对象列吗?

如何只包含Sepal.lengthSpecies列?

0 投票
1 回答
853 浏览

r - 为什么在 ffbase2 (dplyr_ffbase) 中汇总显示“as.vmode.default() (list) 对象中的错误不能强制输入'double'”?

我有一个包含 10 列的大型(2300 万行)ffdf 表(tbl_ffdf),其中 7 个是因子,3 个包含数字。它看起来像这样:

我想用 sum(Nx) 聚合数据以删除这种重复项并使我的表如下所示:

我正在使用从 github 安装的包 ffbase2(对于 ffdf 表来说是 dplyr)。我正在做以下事情:

然后它工作〜10秒并说

之后,它会根据我的 Rstudio 中的设置进入调试模式,他需要大约 3-5 分钟才能深入,停止挂起计算机并显示出错的功能代码:

在 Data 中,我们可以看到 x 是 F1 值的 data.frame。在 Traceback - 函数中

观察 ffbase2 的源代码并没有给我太多...我有类似方法 summarise_.grouped_ffdf 使用数据的递归切片,并且可能在最后一步它得到一些 data.frame 但想要得到一个矩阵?...这是“(列表)对象不能被强制输入'double'”错误的常见原因。

我不知道这个错误的真正原因是什么以及如何解决它。请帮忙!:-)

0 投票
1 回答
590 浏览

r - R - ff 包:查找 ffdf 中出现频率最高的元素,并删除所在行

我需要一个建议来找到 ffdf 中最常见的元素,然后删除所在的行。我决定尝试使用 ff 包,因为我正在处理非常大的数据并且基本 RI 内存不足。

这是一个小例子:

我在找:

  • 导出 ffdf 中出现频率最高的元素(在本例中为“b”)
  • 从ffdf中删除“b”所在的所有行

因此,新的 ffdf 必须如下:

在基础 RI 中找到了“table”函数的方法

但是处理大量数据我需要 ff 包之类的东西。

0 投票
1 回答
392 浏览

r - 逐渐在磁盘上增长一个 ffdf 数据帧

从 save.ffdf 的文档中:

使用“save.ffdf”会自动将“ff”向量的“终结器”设置为“关闭”。这意味着当对象被删除或 R 会话关闭时,数据将保留在磁盘上。可以使用“删除”或删除保存对象的目录(“目录”)来删除数据。

我想从一个小的 ffdf 数据框开始,一次添加一点新数据,然后在磁盘上增长它。于是我做了一个小实验:

事实证明,当我删除 ffiris 时,它不会自动更新磁盘上的 ff 数据。手动保存呢?

嗯,还是没有运气。为什么?

在保存之前删除文件夹怎么样?

甚至更陌生。即使这一切都有效,它仍然会非常低效。我正在寻找类似的东西:

有人可以帮忙吗?

0 投票
2 回答
163 浏览

r - ffbase::as.character 中的“by”参数有什么作用?

在下面的帖子中,

在 R 中使用 ffdfdply 函数进行聚合

有这样一条线。

只是出于好奇,我想知道by参数是什么意思。它似乎与ff数据框有关,但我不确定。谷歌搜索和 R 文档as.characteras.vector没有提供任何有用的信息。

我尝试了一些示例,但下面的代码给出了相同的结果。

如果有人能告诉我它是什么,我将不胜感激。先感谢您。

0 投票
1 回答
1026 浏览

r - 将包含字符数据的列添加到 ffdf

我试图在我的 ffdf 中添加一个 Source 列,但似乎无法让它工作......如果它是一个普通的 df 我会简单地写

如果我为 ffdf 执行此操作,它会返回错误

有任何想法吗?

0 投票
1 回答
201 浏览

r - 大数据帧的高效组合和操作

我在 R 中有 2 个相对较大的数据框。我正在尝试尽可能高效地合并/查找所有组合。结果 df 变得很大(长度为dim(myDF1)[1]*dim(myDF2)[1]),因此我尝试使用ff. 我也愿意使用其他解决方案,例如bigmemory解决这些内存问题的包。我对这些软件包中的任何一个几乎都没有经验。

工作示例 - 假设我正在使用一些类似于 USArrests 的数据框:

现在,我将制作 2 个数据框,它们代表来自 myNames 的一些特定观察。稍后我将尝试通过它们的行名来引用它们。

例如,我在 myDF1 中的第一组状态是myNames[unlist(myDF1[1, ]), ]. 然后我将使用以下命令找到 myDF1 和 myDF2 的所有组合ikey

1)有没有更快的方法来排序?

2) 这种组合是否有替代方案(不使用 RAM)?

最后,我希望能够按行/列引用任何原始数据。具体来说,我想获得不同类型的 rowSums。例如:

3)最终,我想要一个带有上述 rowSum 的向量,所以我可以在myDF. 关于如何最有效地做到这一点的任何建议?

谢谢!

0 投票
1 回答
94 浏览

r - log2 变换 ff 对象

我想 log2ffff包中转换对象中的所有数值。

使用我的df

我尝试了以下代码,但出现错误:

有没有办法将此功能应用于ff对象?

0 投票
0 回答
117 浏览

r - 如何总结 table.ff 中的列或如何将其转换为可行的形式

r 中 table.ff 对象的“性质”是什么?table.ff 的 dim 为 N ULL,通常用于频率测量。我找不到将所有列添加在一起的任何功能,以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...

提前感谢您的任何想法!