问题标签 [disk.frame]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

26 问题

0 投票

1 回答

36 浏览

disk.frame - 如何找出我的 disk.frame 使用了多少个工人？

我正在使用该disk.frame软件包，我想知道有多少工人正在disk.frame使用这些工人来执行操作？我浏览了disk.frame文档，找不到这样的功能。

disk.frame

0 投票

0 回答

36 浏览

r - 如何将非常大的 40gb ffdf 转换为 disk.frame？

如果它更小，那么使用 as.data.table.ffdf 函数就不难了。但事实上，该文件比我的内存大得多。

有什么办法可以转换它还是需要将它写入磁盘然后重新加载？

r ff disk.frame

0 投票

0 回答

165 浏览

r - 有没有更好的方法在函数中使用 disk.frame ？

我创建了一些需要处理 adisk.frame或 adata.table作为输入的函数。由于执行时未找到对象，我从其中future使用的包中收到错误。disk.frame我认为这是因为future在全局环境中寻找要传递给每个工作人员的对象，而没有识别出我在函数执行环境中生成的对象。超级赋值<<-解决了这个问题，但我想知道是否有更好或更合适的方法来实现disk.frame在函数中使用 's？

我在 Windows 10 x64 上使用最新版本的 R 版本 4.0.0 disk.frame '0.3.5'。future '1.17.0'

我已经使用 iris 数据集复制了一个示例：

设置

工作磁盘框架操作

这是有效的，因为filterVals它是在全球环境中。

在函数中执行 disk.frame 操作

r r-future disk.frame

0 投票

1 回答

160 浏览

r - 如何在 R 中使用 disk.frame 计算唯一实体？

我想将数据框转换为磁盘框，然后计算第一列。当我尝试它时，它不计算列的唯一值的数量。它似乎在计算工人的数量。

这是一个示例数据集

在第一个查询中，它让我得到这个输出

在第二个查询中，它得到了我这个输出

r disk.frame

0 投票

1 回答

184 浏览

r - 将磁盘帧写入 CSV 的最佳方法是什么？

我正在查看文档，但没有看到写入 CSV 的功能。

似乎有一个写入磁盘帧的功能，但不清楚它以什么格式存储

write_disk.frame

将 data.frame/disk.frame 写入 disk.frame 位置。如果 df 是 data.frame，则在大多数情况下建议使用 as.disk.frame 函数

我可以使用fwrite或write_csv与磁盘框架一起使用吗？

r data.table fwrite fread disk.frame

0 投票

1 回答

102 浏览

r - 如何将两个磁盘框架绑定在一起？

我有两个磁盘框架，每个都有大约 20GB 的文件。

它太大而无法合并为数据表，因为该过程需要的内存超出了我可用的内存。我尝试使用此代码：output <- rbindlist(list(df1, df2))

皱纹是我也想跑步，unique因为我的数据中可能存在重复。

我可以rbindlist在两个磁盘框架上使用相同的代码吗？

r data.table disk.frame

0 投票

1 回答

117 浏览

r - 如何读取已保存的磁盘帧？

我将磁盘框架保存到其输出目录，然后重新启动我的 R 会话。

我想阅读现有的磁盘框架，而不是在其他地方重新创建它。

我怎么能做到这一点？我的文件夹被称为outdir.df

这就是我保存磁盘框架的方式

r disk.frame

0 投票

1 回答

19 浏览

r - srckeep 如何影响底层磁盘框架？

我有一个带有这些列的磁盘框架

假设磁盘框架是 200M 行，我想按 key_b 对其进行分组。此外，我希望保持底层磁盘框架完好无损，以便以后可以将其加入 key_c 上的其他内容或将其聚合到 key_a 上。我担心 srckeep 会影响底层磁盘框架。

这些中的任何一个都可以吗？如果是这样，我可以期望一个比另一个快吗？

这些聚合中的任何一个将如何影响底层磁盘框架？我之前有一个经验，我将聚合分配给一个变量，然后运行delete(aggregation，但它删除了整个磁盘框架。

r disk.frame

0 投票

2 回答

361 浏览

r - 我的 group by 似乎没有在磁盘框架中工作

我在一个大型数据集（> 20GB）上运行了一个分组，但它似乎工作不正常

这是我的代码

它返回了这个错误

警告消息：1：在 serialize(data, node$con) 中：
“package:MLmetrics”在加载时可能不可用 2：在 serialize(data, node$con) 中：“package:MLmetrics”在加载时可能不可用 3 : 在 serialize(data, node$con) 中: 'package:MLmetrics' 可能在加载时不可用 4: 在 serialize(data, node$con) 中:
'package:MLmetrics' 在加载时可能不可用 5: 在 serialize( data, node$con) : 'package:MLmetrics' 可能在加载时不可用 6: 在 serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用 7: 在 serialize(data, node$ con) :
'package:MLmetrics' 可能在加载时不可用 8: In serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用

我最初加载了库，但在运行此代码之前我运行了 remove.packages(MLmetrics)。此外，我检查了 conflicted::conflict_scout 并没有与包 MLmetrics 出现任何冲突。

当我运行这段代码

它给了我这个输出

我担心在对数据进行分组时出现问题，因为它没有创建价值周的不同组。两列都存储为数据类型字符。

r data.table disk.frame

0 投票

1 回答

319 浏览

r - 序列化错误（数据，node$con）：写入与磁盘框架的连接时出错

我正在尝试在磁盘框架上执行分组，但出现此错误

序列化错误（数据，node$con）：写入与磁盘框架的连接时出错

我想知道是否可以通过更改块的大小来解决这个问题。这似乎表明我的块太大而无法处理（我的文件有 16 个块）。我正在考虑用 30 个块重新创建磁盘帧，每个块都小得多，然后再次尝试使用我的聚合。具体来说，聚合正在做n_distinct.

那个听起来是对的吗？

r future disk.frame

1 2 3 4 5 6 7 8 9 10

问题标签 [disk.frame]

设置

工作磁盘框架操作

在函数中执行 disk.frame 操作

Reference