问题标签 [ff]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

174 问题

0 投票

1 回答

372 浏览

r - 从 ff 对象中删除列

我想从ff对象中删除一列：

输入文件file.txt是制表符分隔的，如下所示：

然后用ff包阅读：

我想排除第一列（或在导入文件时跳过它）。使用普通的数据框或矩阵，我会简单地应用这样的命令：

但是，在ff对象中不起作用。有任何想法吗？

2015-09-23T12:44:08.777

0 投票

1 回答

94 浏览

r - log2 变换 ff 对象

我想 log2ff从ff包中转换对象中的所有数值。

使用我的df：

我尝试了以下代码，但出现错误：

有没有办法将此功能应用于ff对象？

r logarithm ff ffbase

2015-09-29T15:44:05.123

0 投票

1 回答

568 浏览

r - 如何从 ff_matrix 有效地计算协方差矩阵

我有一个大矩阵（1,000,000 行 x 1,140 列），我使用 ff 包存储它。

有没有一种有效的方法可以从中计算协方差矩阵？使用 cov 函数会出现错误：

cov(X) 中的错误：同时提供“x”和“y”或类似矩阵的“x”

鉴于 cov 不理解 ff 对象，这并不奇怪。我目前正在使用一个简单的嵌套 for 循环：

这有效，但速度很慢。

r covariance ff

2015-11-16T12:33:20.163

0 投票

2 回答

139 浏览

r - 在大型 ffdfs 上使用 apply

基本思想是这样的：我有一个很大的ffdf（大约 550 万 x 136 个字段）。我知道这个数据框中的一些列的所有列都是NA. 我如何找出哪些并适当地删除它们？

我的直觉是做类似的事情（假设df是ffdf）：

apply(X=is.na(df[,1:136]), MARGIN = 2, FUN = sum)

这应该给我NA每列的计数向量，然后我可以找到哪些具有约 550 万个值，使用等NA删除它们。非常简单。df <- df[,-c(vector of columns)]

但是，apply给我一个错误。

这告诉我apply无法处理这种大小的数据框。我可以使用任何替代方案吗？

r bigdata apply ff

2015-12-01T14:32:37.847

0 投票

1 回答

713 浏览

r - R ff，如何将新列/行添加到现有 FF 对象

很多时候我走进这个：

我已经有一个大的 ff 对象（由矩阵/数组表示），然后我想向它添加一个新的列/行，因为我有一些更新的数据并且不想从头开始创建一个新的大对象（这可能非常耗时）。

我正在尝试这样的事情：

dim(ff.t) <- c(6, 4) dim<-.ff( *tmp*, value = c(6, 4)) 中的错误：您只能更改最快旋转的 dim 1: dim<-( *tmp*, value = c(6, 4)) 2 : dim<-.ff( *tmp*, value = c(6, 4)) 3: stop("你只能改变最快的旋转dim")

这是什么意思？有没有办法解决这个问题并将列/行添加到 ff 对象（自然也增加文件大小）？如果您无法避免创建一个新对象，那么最好的方法是什么？新列可以用 0 或 NA 初始化。

谢谢

r ff

2015-12-03T10:19:57.040

0 投票

0 回答

55 浏览

r - 创建大型ff对象时出现R奇怪的错误

我正在尝试创建一些大型 ff 对象。根据文档，这应该不是问题：

这给了我一个有用的小错误：

创建一个较小的，效果很好：

我错过了什么吗？数组大小（向量长度）是否有限制？

r memory bigdata ff

2015-12-14T14:13:14.923

0 投票

1 回答

367 浏览

r - 在 R 中处理大数据集的最佳方法

我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件（更新：txt 文件）的文件夹，我想合并它们，总共 250GB。

我知道如何合并文件夹中的所有文件，但是尽管我在 128RAM 服务器上运行它，但我一直在内存不足。

我正在寻找有关如何使用 RI 以可管理的方式（如果可能）加载/合并这些文件的任何提示/建议，我一直在研究诸如“ff”和“bigmemory”之类的包，这些会为我提供解决方案吗？

r bigdata ff r-bigmemory

2015-12-24T09:41:27.337

0 投票

0 回答

117 浏览

r - 如何总结 table.ff 中的列或如何将其转换为可行的形式

r 中 table.ff 对象的“性质”是什么？table.ff 的 dim 为 N ULL，通常用于频率测量。我找不到将所有列添加在一起的任何功能，以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...

提前感谢您的任何想法！

r dataframe ff ffbase

2016-01-29T03:12:16.127

0 投票

0 回答

88 浏览

r - R：大数据：确定字符串长度

我的数据如下所示，有数百万行。可以将此文本复制到文本文件中，并在下面的示例中读取。

我正在尝试阅读上面的文本并确定以 N、C、G 或 T 开头的字符串的长度。我通常会这样做：

我将如何对ff包做同样的事情？

我尝试了各种方法，但都没有奏效。

r ff

2016-02-01T19:14:29.417

0 投票

1 回答

173 浏览

r - ffdf 对象消耗额外的 RAM（以 GB 为单位）

我决定测试 ff 包的关键优势 - RAM 最小分配（PC 规格：i5、RAM 8Gb、Win7 64 位、Rstudio）。

根据包描述，我们可以像虚拟对象一样操作物理对象（文件），就好像它们被分配到 RAM 中一样。因此，实际 RAM 使用量大大减少（从 Gb 到 kb）。我使用的代码如下：

实际文件大小为 4.5 Gb，实际使用的 RAM 以这种方式变化（通过任务管理器）：2,92 -> 上限（~8Gb）-> 5.25Gb。对象大小（通过 object.size()）约为 12 kb。

我担心的是 RAM 额外分配（~2.3 GB）。根据包描述，它应该只增加了 12 kb。我不使用任何字符。

也许我错过了一些 ff 包。

r memory ff bigdata

2016-02-03T10:38:16.617

1 2 3 4 5 6 7 8 9 10

问题标签 [ff]

Reference