“ffbase”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1281 浏览

r - ff/ffbase R 包中的 Data.table setDT 功能

计算包中的条件均值列ff/ffbase。我正在搜索ff/ffbase包中的功能，这允许我进行类似于以下使用data.table包进行的数据操作：

中有一个条件均值函数ffbase，但是，它创建了中的类数长度的向量irisdf[,5]：

，而不是长度为的新向量nrow(irisdf)。

正如@BondedDust 建议的那样ave(base)给出正确的输出：

所以最后一个问题是，如何添加VectorOfMeans，irisdf我试过下面的代码，它有效：

使用来自SO答案的cbind.ffdf2，但我想，这个SO问题是关于更具体的问题，然后是主要的，我想有一种更简单（更快）的方法可以做到这一点。我希望能够在获得的数据集上运行（例如），你应该看看我关于合并的问题和在这种情况下（因为物理/虚拟存储模式存在我不详细了解的问题）。bigglm.ffirisdfVectorOfMeansirisdf

r data.table ff ffbase

2015-02-08T18:30:32.657

0 投票

2 回答

1407 浏览

r - 如何从 ffdf 对象中删除列？(右)

我可以轻松删除ffdf对象列吗？

如何只包含Sepal.length和Species列？

r ff ffbase

2015-02-09T20:00:58.940

0 投票

1 回答

853 浏览

r - 为什么在 ffbase2 (dplyr_ffbase) 中汇总显示“as.vmode.default() (list) 对象中的错误不能强制输入'double'”？

我有一个包含 10 列的大型（2300 万行）ffdf 表（tbl_ffdf），其中 7 个是因子，3 个包含数字。它看起来像这样：

我想用 sum(Nx) 聚合数据以删除这种重复项并使我的表如下所示：

我正在使用从 github 安装的包 ffbase2（对于 ffdf 表来说是 dplyr）。我正在做以下事情：

然后它工作〜10秒并说

之后，它会根据我的 Rstudio 中的设置进入调试模式，他需要大约 3-5 分钟才能深入，停止挂起计算机并显示出错的功能代码：

在 Data 中，我们可以看到 x 是 F1 值的 data.frame。在 Traceback - 函数中

观察 ffbase2 的源代码并没有给我太多...我有类似方法 summarise_.grouped_ffdf 使用数据的递归切片，并且可能在最后一步它得到一些 data.frame 但想要得到一个矩阵？...这是“（列表）对象不能被强制输入'double'”错误的常见原因。

我不知道这个错误的真正原因是什么以及如何解决它。请帮忙！:-)

r dplyr ff ffbase

2015-04-02T15:18:36.643

0 投票

1 回答

590 浏览

r - R - ff 包：查找 ffdf 中出现频率最高的元素，并删除所在行

我需要一个建议来找到 ffdf 中最常见的元素，然后删除所在的行。我决定尝试使用 ff 包，因为我正在处理非常大的数据并且基本 RI 内存不足。

这是一个小例子：

我在找：

导出 ffdf 中出现频率最高的元素（在本例中为“b”）
从ffdf中删除“b”所在的所有行

因此，新的 ffdf 必须如下：

在基础 RI 中找到了“table”函数的方法

但是处理大量数据我需要 ff 包之类的东西。

r dataframe ff ffbase

2015-05-27T17:50:42.963

0 投票

1 回答

392 浏览

r - 逐渐在磁盘上增长一个 ffdf 数据帧

从 save.ffdf 的文档中：

使用“save.ffdf”会自动将“ff”向量的“终结器”设置为“关闭”。这意味着当对象被删除或 R 会话关闭时，数据将保留在磁盘上。可以使用“删除”或删除保存对象的目录（“目录”）来删除数据。

我想从一个小的 ffdf 数据框开始，一次添加一点新数据，然后在磁盘上增长它。于是我做了一个小实验：

事实证明，当我删除 ffiris 时，它不会自动更新磁盘上的 ff 数据。手动保存呢？

嗯，还是没有运气。为什么？

在保存之前删除文件夹怎么样？

甚至更陌生。即使这一切都有效，它仍然会非常低效。我正在寻找类似的东西：

有人可以帮忙吗？

r ff ffbase

2015-06-14T21:56:41.037

0 投票

2 回答

163 浏览

r - ffbase::as.character 中的“by”参数有什么作用？

在下面的帖子中，

在 R 中使用 ffdfdply 函数进行聚合

有这样一条线。

只是出于好奇，我想知道by参数是什么意思。它似乎与ff数据框有关，但我不确定。谷歌搜索和 R 文档as.character并as.vector没有提供任何有用的信息。

我尝试了一些示例，但下面的代码给出了相同的结果。

如果有人能告诉我它是什么，我将不胜感激。先感谢您。

r character optional-parameters coercion ffbase

2015-06-27T20:01:50.413

0 投票

1 回答

1026 浏览

r - 将包含字符数据的列添加到 ffdf

我试图在我的 ffdf 中添加一个 Source 列，但似乎无法让它工作......如果它是一个普通的 df 我会简单地写

如果我为 ffdf 执行此操作，它会返回错误

有任何想法吗？

r dataframe bigdata ff ffbase

2015-07-20T21:19:52.907

0 投票

1 回答

201 浏览

r - 大数据帧的高效组合和操作

我在 R 中有 2 个相对较大的数据框。我正在尝试尽可能高效地合并/查找所有组合。结果 df 变得很大（长度为dim(myDF1)[1]*dim(myDF2)[1]），因此我尝试使用ff. 我也愿意使用其他解决方案，例如bigmemory解决这些内存问题的包。我对这些软件包中的任何一个几乎都没有经验。

工作示例 - 假设我正在使用一些类似于 USArrests 的数据框：

现在，我将制作 2 个数据框，它们代表来自 myNames 的一些特定观察集。稍后我将尝试通过它们的行名来引用它们。

例如，我在 myDF1 中的第一组状态是myNames[unlist(myDF1[1, ]), ]. 然后我将使用以下命令找到 myDF1 和 myDF2 的所有组合ikey：

1）有没有更快的方法来排序？

2) 这种组合是否有替代方案（不使用 RAM）？

最后，我希望能够按行/列引用任何原始数据。具体来说，我想获得不同类型的 rowSums。例如：

3）最终，我想要一个带有上述 rowSum 的向量，所以我可以在myDF. 关于如何最有效地做到这一点的任何建议？

谢谢！

r performance memory-management ff ffbase

2015-09-11T05:21:01.060

0 投票

1 回答

94 浏览

r - log2 变换 ff 对象

我想 log2ff从ff包中转换对象中的所有数值。

使用我的df：

我尝试了以下代码，但出现错误：

有没有办法将此功能应用于ff对象？

r logarithm ff ffbase

2015-09-29T15:44:05.123

0 投票

0 回答

117 浏览

r - 如何总结 table.ff 中的列或如何将其转换为可行的形式

r 中 table.ff 对象的“性质”是什么？table.ff 的 dim 为 N ULL，通常用于频率测量。我找不到将所有列添加在一起的任何功能，以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...

提前感谢您的任何想法！

r dataframe ff ffbase

2016-01-29T03:12:16.127

问题标签 [ffbase]

Reference