问题标签 [ff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从 ff 对象中删除列
我想从ff
对象中删除一列:
输入文件file.txt
是制表符分隔的,如下所示:
然后用ff
包阅读:
我想排除第一列(或在导入文件时跳过它)。使用普通的数据框或矩阵,我会简单地应用这样的命令:
但是,在ff
对象中不起作用。有任何想法吗?
r - log2 变换 ff 对象
我想 log2ff
从ff
包中转换对象中的所有数值。
使用我的df
:
我尝试了以下代码,但出现错误:
有没有办法将此功能应用于ff
对象?
r - 如何从 ff_matrix 有效地计算协方差矩阵
我有一个大矩阵(1,000,000 行 x 1,140 列),我使用 ff 包存储它。
有没有一种有效的方法可以从中计算协方差矩阵?使用 cov 函数会出现错误:
cov(X) 中的错误:同时提供“x”和“y”或类似矩阵的“x”
鉴于 cov 不理解 ff 对象,这并不奇怪。我目前正在使用一个简单的嵌套 for 循环:
这有效,但速度很慢。
r - 在大型 ffdfs 上使用 apply
基本思想是这样的:我有一个很大的ffdf
(大约 550 万 x 136 个字段)。我知道这个数据框中的一些列的所有列都是NA
. 我如何找出哪些并适当地删除它们?
我的直觉是做类似的事情(假设df
是ffdf
):
apply(X=is.na(df[,1:136]), MARGIN = 2, FUN = sum)
这应该给我NA
每列的计数向量,然后我可以找到哪些具有约 550 万个值,使用等NA
删除它们。非常简单。df <- df[,-c(vector of columns)]
但是,apply
给我一个错误。
这告诉我apply
无法处理这种大小的数据框。我可以使用任何替代方案吗?
r - R ff,如何将新列/行添加到现有 FF 对象
很多时候我走进这个:
我已经有一个大的 ff 对象(由矩阵/数组表示),然后我想向它添加一个新的列/行,因为我有一些更新的数据并且不想从头开始创建一个新的大对象(这可能非常耗时)。
我正在尝试这样的事情:
dim(ff.t) <- c(6, 4)
dim<-.ff
(*tmp*
, value = c(6, 4)) 中的错误:您只能更改最快旋转的 dim 1:dim<-
(*tmp*
, value = c(6, 4)) 2 :dim<-.ff
(*tmp*
, value = c(6, 4)) 3: stop("你只能改变最快的旋转dim")
这是什么意思 ?有没有办法解决这个问题并将列/行添加到 ff 对象(自然也增加文件大小)?如果您无法避免创建一个新对象,那么最好的方法是什么?新列可以用 0 或 NA 初始化。
谢谢
r - 在 R 中处理大数据集的最佳方法
我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件(更新:txt 文件)的文件夹,我想合并它们,总共 250GB。
我知道如何合并文件夹中的所有文件,但是尽管我在 128RAM 服务器上运行它,但我一直在内存不足。
我正在寻找有关如何使用 RI 以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议,我一直在研究诸如“ff”和“bigmemory”之类的包,这些会为我提供解决方案吗?
r - 如何总结 table.ff 中的列或如何将其转换为可行的形式
r 中 table.ff 对象的“性质”是什么?table.ff 的 dim 为 N ULL,通常用于频率测量。我找不到将所有列添加在一起的任何功能,以便对生成的“数字向量”进行一些统计。我的 table.ff 示例的 str 是 num [1:215558488] 0 0 0 0 0 0 0 0 0 0 ...
提前感谢您的任何想法!
r - R:大数据:确定字符串长度
我的数据如下所示,有数百万行。可以将此文本复制到文本文件中,并在下面的示例中读取。
我正在尝试阅读上面的文本并确定以 N、C、G 或 T 开头的字符串的长度。我通常会这样做:
我将如何对ff
包做同样的事情?
我尝试了各种方法,但都没有奏效。
r - ffdf 对象消耗额外的 RAM(以 GB 为单位)
我决定测试 ff 包的关键优势 - RAM 最小分配(PC 规格:i5、RAM 8Gb、Win7 64 位、Rstudio)。
根据包描述,我们可以像虚拟对象一样操作物理对象(文件),就好像它们被分配到 RAM 中一样。因此,实际 RAM 使用量大大减少(从 Gb 到 kb)。我使用的代码如下:
实际文件大小为 4.5 Gb,实际使用的 RAM 以这种方式变化(通过任务管理器):2,92 -> 上限(~8Gb)-> 5.25Gb。对象大小(通过 object.size())约为 12 kb。
我担心的是 RAM 额外分配(~2.3 GB)。根据包描述,它应该只增加了 12 kb。我不使用任何字符。
也许我错过了一些 ff 包。