问题标签 [ff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
372 浏览

r - 从 ff 对象中删除列

我想从ff对象中删除一列:

输入文件file.txt是制表符分隔的,如下所示:

然后用ff包阅读:

我想排除第一列(或在导入文件时跳过它)。使用普通的数据框或矩阵,我会简单地应用这样的命令:

但是,在ff对象中不起作用。有任何想法吗?

0 投票
1 回答
94 浏览

r - log2 变换 ff 对象

我想 log2ffff包中转换对象中的所有数值。

使用我的df

我尝试了以下代码,但出现错误:

有没有办法将此功能应用于ff对象?

0 投票
1 回答
568 浏览

r - 如何从 ff_matrix 有效地计算协方差矩阵

我有一个大矩阵(1,000,000 行 x 1,140 列),我使用 ff 包存储它。

有没有一种有效的方法可以从中计算协方差矩阵?使用 cov 函数会出现错误:

cov(X) 中的错误:同时提供“x”和“y”或类似矩阵的“x”

鉴于 cov 不理解 ff 对象,这并不奇怪。我目前正在使用一个简单的嵌套 for 循环:

这有效,但速度很慢。

0 投票
2 回答
139 浏览

r - 在大型 ffdfs 上使用 apply

基本思想是这样的:我有一个很大的ffdf(大约 550 万 x 136 个字段)。我知道这个数据框中的一些列的所有列都是NA. 我如何找出哪些并适当地删除它们?

我的直觉是做类似的事情(假设dfffdf):

apply(X=is.na(df[,1:136]), MARGIN = 2, FUN = sum)

这应该给我NA每列的计数向量,然后我可以找到哪些具有约 550 万个值,使用等NA删除它们。非常简单。df <- df[,-c(vector of columns)]

但是,apply给我一个错误。

这告诉我apply无法处理这种大小的数据框。我可以使用任何替代方案吗?

0 投票
1 回答
713 浏览

r - R ff,如何将新列/行添加到现有 FF 对象

很多时候我走进这个:

我已经有一个大的 ff 对象(由矩阵/数组表示),然后我想向它添加一个新的列/行,因为我有一些更新的数据并且不想从头开始创建一个新的大对象(这可能非常耗时)。

我正在尝试这样的事情:

dim(ff.t) <- c(6, 4) dim<-.ff( *tmp*, value = c(6, 4)) 中的错误:您只能更改最快旋转的 dim 1: dim<-( *tmp*, value = c(6, 4)) 2 : dim<-.ff( *tmp*, value = c(6, 4)) 3: stop("你只能改变最快的旋转dim")

这是什么意思 ?有没有办法解决这个问题并将列/行添加到 ff 对象(自然也增加文件大小)?如果您无法避免创建一个新对象,那么最好的方法是什么?新列可以用 0 或 NA 初始化。

谢谢

0 投票
0 回答
55 浏览

r - 创建大型ff对象时出现R奇怪的错误

我正在尝试创建一些大型 ff 对象。根据文档,这应该不是问题:

这给了我一个有用的小错误:

创建一个较小的,效果很好:

我错过了什么吗?数组大小(向量长度)是否有限制?

0 投票
1 回答
367 浏览

r - 在 R 中处理大数据集的最佳方法

我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件(更新:txt 文件)的文件夹,我想合并它们,总共 250GB。

我知道如何合并文件夹中的所有文件,但是尽管我在 128RAM 服务器上运行它,但我一直在内存不足。

我正在寻找有关如何使用 RI 以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议,我一直在研究诸如“ff”和“bigmemory”之类的包,这些会为我提供解决方案吗?

0 投票
0 回答
117 浏览

r - 如何总结 table.ff 中的列或如何将其转换为可行的形式

r 中 table.ff 对象的“性质”是什么?table.ff 的 dim 为 N ULL,通常用于频率测量。我找不到将所有列添加在一起的任何功能,以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...

提前感谢您的任何想法!

0 投票
0 回答
88 浏览

r - R:大数据:确定字符串长度

我的数据如下所示,有数百万行。可以将此文本复制到文本文件中,并在下面的示例中读取。

我正在尝试阅读上面的文本并确定以 N、C、G 或 T 开头的字符串的长度。我通常会这样做:

我将如何对ff包做同样的事情?

我尝试了各种方法,但都没有奏效。

0 投票
1 回答
173 浏览

r - ffdf 对象消耗额外的 RAM(以 GB 为单位)

我决定测试 ff 包的关键优势 - RAM 最小分配(PC 规格:i5、RAM 8Gb、Win7 64 位、Rstudio)。

根据包描述,我们可以像虚拟对象一样操作物理对象(文件),就好像它们被分配到 RAM 中一样。因此,实际 RAM 使用量大大减少(从 Gb 到 kb)。我使用的代码如下:

实际文件大小为 4.5 Gb,实际使用的 RAM 以这种方式变化(通过任务管理器):2,92 -> 上限(~8Gb)-> 5.25Gb。对象大小(通过 object.size())约为 12 kb。

我担心的是 RAM 额外分配(~2.3 GB)。根据包描述,它应该只增加了 12 kb。我不使用任何字符。

也许我错过了一些 ff 包。