问题标签 [disk.frame]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
36 浏览

disk.frame - 如何找出我的 disk.frame 使用了多少个工人?

我正在使用该disk.frame软件包,我想知道有多少工人正在disk.frame使用这些工人来执行操作?我浏览了disk.frame文档,找不到这样的功能。

0 投票
0 回答
36 浏览

r - 如何将非常大的 40gb ffdf 转换为 disk.frame?

如果它更小,那么使用 as.data.table.ffdf 函数就不难了。但事实上,该文件比我的内存大得多。

有什么办法可以转换它还是需要将它写入磁盘然后重新加载?

0 投票
0 回答
165 浏览

r - 有没有更好的方法在函数中使用 disk.frame ?

我创建了一些需要处理 adisk.frame或 adata.table作为输入的函数。由于执行时未找到对象,我从其中future使用的包中收到错误。disk.frame我认为这是因为future在全局环境中寻找要传递给每个工作人员的对象,而没有识别出我在函数执行环境中生成的对象。超级赋值<<-解决了这个问题,但我想知道是否有更好或更合适的方法来实现disk.frame在函数中使用 's?

我在 Windows 10 x64 上使用最新版本的 R 版本 4.0.0 disk.frame '0.3.5'future '1.17.0'

我已经使用 iris 数据集复制了一个示例:

设置

工作磁盘框架操作

这是有效的,因为filterVals它是在全球环境中。

在函数中执行 disk.frame 操作

0 投票
1 回答
160 浏览

r - 如何在 R 中使用 disk.frame 计算唯一实体?

我想将数据框转换为磁盘框,然后计算第一列。当我尝试它时,它不计算列的唯一值的数量。它似乎在计算工人的数量。

这是一个示例数据集

在第一个查询中,它让我得到这个输出

在第二个查询中,它得到了我这个输出

0 投票
1 回答
184 浏览

r - 将磁盘帧写入 CSV 的最佳方法是什么?

我正在查看文档,但没有看到写入 CSV 的功能。

似乎有一个写入磁盘帧的功能,但不清楚它以什么格式存储

write_disk.frame

将 data.frame/disk.frame 写入 disk.frame 位置。如果 df 是 data.frame,则在大多数情况下建议使用 as.disk.frame 函数

我可以使用fwritewrite_csv与磁盘框架一起使用吗?

0 投票
1 回答
102 浏览

r - 如何将两个磁盘框架绑定在一起?

我有两个磁盘框架,​​每个都有大约 20GB 的文件。

它太大而无法合并为数据表,因为该过程需要的内存超出了我可用的内存。我尝试使用此代码:output <- rbindlist(list(df1, df2))

皱纹是我也想跑步,unique因为我的数据中可能存在重复。

我可以rbindlist在两个磁盘框架上使用相同的代码吗?

0 投票
1 回答
117 浏览

r - 如何读取已保存的磁盘帧?

我将磁盘框架保存到其输出目录,然后重新启动我的 R 会话。

我想阅读现有的磁盘框架,​​而不是在其他地方重新创建它。

我怎么能做到这一点?我的文件夹被称为outdir.df

这就是我保存磁盘框架的方式

0 投票
1 回答
19 浏览

r - srckeep 如何影响底层磁盘框架?

我有一个带有这些列的磁盘框架

假设磁盘框架是 200M 行,我想按 key_b 对其进行分组。此外,我希望保持底层磁盘框架完好无损,以便以后可以将其加入 key_c 上的其他内容或将其聚合到 key_a 上。我担心 srckeep 会影响底层磁盘框架。

这些中的任何一个都可以吗?如果是这样,我可以期望一个比另一个快吗?

这些聚合中的任何一个将如何影响底层磁盘框架?我之前有一个经验,我将聚合分配给一个变量,然后运行delete(aggregation,但它删除了整个磁盘框架。

0 投票
2 回答
361 浏览

r - 我的 group by 似乎没有在磁盘框架中工作

我在一个大型数据集(> 20GB)上运行了一个分组,但它似乎工作不正常

这是我的代码

它返回了这个错误

警告消息:1:在 serialize(data, node$con) 中:
“package:MLmetrics”在加载时可能不可用 2:在 serialize(data, node$con) 中:“package:MLmetrics”在加载时可能不可用 3 : 在 serialize(data, node$con) 中: 'package:MLmetrics' 可能在加载时不可用 4: 在 serialize(data, node$con) 中:
'package:MLmetrics' 在加载时可能不可用 5: 在 serialize( data, node$con) : 'package:MLmetrics' 可能在加载时不可用 6: 在 serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用 7: 在 serialize(data, node$ con) :
'package:MLmetrics' 可能在加载时不可用 8: In serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用

我最初加载了库,但在运行此代码之前我运行了 remove.packages(MLmetrics)。此外,我检查了 conflicted::conflict_scout 并没有与包 MLmetrics 出现任何冲突。

当我运行这段代码

它给了我这个输出

我担心在对数据进行分组时出现问题,因为它没有创建价值周的不同组。两列都存储为数据类型字符。

0 投票
1 回答
319 浏览

r - 序列化错误(数据,node$con):写入与磁盘框架的连接时出错

我正在尝试在磁盘框架上执行分组,但出现此错误

序列化错误(数据,node$con):写入与磁盘框架的连接时出错

我想知道是否可以通过更改块的大小来解决这个问题。这似乎表明我的块太大而无法处理(我的文件有 16 个块)。我正在考虑用 30 个块重新创建磁盘帧,每个块都小得多,然后再次尝试使用我的聚合。具体来说,聚合正在做n_distinct.

那个听起来是对的吗?