问题标签 [disk.frame]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
disk.frame - 如何找出我的 disk.frame 使用了多少个工人?
我正在使用该disk.frame
软件包,我想知道有多少工人正在disk.frame
使用这些工人来执行操作?我浏览了disk.frame
文档,找不到这样的功能。
r - 如何将非常大的 40gb ffdf 转换为 disk.frame?
如果它更小,那么使用 as.data.table.ffdf 函数就不难了。但事实上,该文件比我的内存大得多。
有什么办法可以转换它还是需要将它写入磁盘然后重新加载?
r - 有没有更好的方法在函数中使用 disk.frame ?
我创建了一些需要处理 adisk.frame
或 adata.table
作为输入的函数。由于执行时未找到对象,我从其中future
使用的包中收到错误。disk.frame
我认为这是因为future
在全局环境中寻找要传递给每个工作人员的对象,而没有识别出我在函数执行环境中生成的对象。超级赋值<<-
解决了这个问题,但我想知道是否有更好或更合适的方法来实现disk.frame
在函数中使用 's?
我在 Windows 10 x64 上使用最新版本的 R 版本 4.0.0 disk.frame '0.3.5'
。future '1.17.0'
我已经使用 iris 数据集复制了一个示例:
设置
工作磁盘框架操作
这是有效的,因为filterVals
它是在全球环境中。
在函数中执行 disk.frame 操作
r - 如何在 R 中使用 disk.frame 计算唯一实体?
我想将数据框转换为磁盘框,然后计算第一列。当我尝试它时,它不计算列的唯一值的数量。它似乎在计算工人的数量。
这是一个示例数据集
在第一个查询中,它让我得到这个输出
在第二个查询中,它得到了我这个输出
r - 将磁盘帧写入 CSV 的最佳方法是什么?
我正在查看文档,但没有看到写入 CSV 的功能。
似乎有一个写入磁盘帧的功能,但不清楚它以什么格式存储
write_disk.frame
将 data.frame/disk.frame 写入 disk.frame 位置。如果 df 是 data.frame,则在大多数情况下建议使用 as.disk.frame 函数
我可以使用fwrite
或write_csv
与磁盘框架一起使用吗?
r - 如何将两个磁盘框架绑定在一起?
我有两个磁盘框架,每个都有大约 20GB 的文件。
它太大而无法合并为数据表,因为该过程需要的内存超出了我可用的内存。我尝试使用此代码:output <- rbindlist(list(df1, df2))
皱纹是我也想跑步,unique
因为我的数据中可能存在重复。
我可以rbindlist
在两个磁盘框架上使用相同的代码吗?
r - 如何读取已保存的磁盘帧?
我将磁盘框架保存到其输出目录,然后重新启动我的 R 会话。
我想阅读现有的磁盘框架,而不是在其他地方重新创建它。
我怎么能做到这一点?我的文件夹被称为outdir.df
这就是我保存磁盘框架的方式
r - srckeep 如何影响底层磁盘框架?
我有一个带有这些列的磁盘框架
假设磁盘框架是 200M 行,我想按 key_b 对其进行分组。此外,我希望保持底层磁盘框架完好无损,以便以后可以将其加入 key_c 上的其他内容或将其聚合到 key_a 上。我担心 srckeep 会影响底层磁盘框架。
这些中的任何一个都可以吗?如果是这样,我可以期望一个比另一个快吗?
这些聚合中的任何一个将如何影响底层磁盘框架?我之前有一个经验,我将聚合分配给一个变量,然后运行delete(aggregation
,但它删除了整个磁盘框架。
r - 我的 group by 似乎没有在磁盘框架中工作
我在一个大型数据集(> 20GB)上运行了一个分组,但它似乎工作不正常
这是我的代码
它返回了这个错误
警告消息:1:在 serialize(data, node$con) 中:
“package:MLmetrics”在加载时可能不可用 2:在 serialize(data, node$con) 中:“package:MLmetrics”在加载时可能不可用 3 : 在 serialize(data, node$con) 中: 'package:MLmetrics' 可能在加载时不可用 4: 在 serialize(data, node$con) 中:
'package:MLmetrics' 在加载时可能不可用 5: 在 serialize( data, node$con) : 'package:MLmetrics' 可能在加载时不可用 6: 在 serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用 7: 在 serialize(data, node$ con) :
'package:MLmetrics' 可能在加载时不可用 8: In serialize(data, node$con) : 'package:MLmetrics' 可能在加载时不可用
我最初加载了库,但在运行此代码之前我运行了 remove.packages(MLmetrics)。此外,我检查了 conflicted::conflict_scout 并没有与包 MLmetrics 出现任何冲突。
当我运行这段代码
它给了我这个输出
我担心在对数据进行分组时出现问题,因为它没有创建价值周的不同组。两列都存储为数据类型字符。
r - 序列化错误(数据,node$con):写入与磁盘框架的连接时出错
我正在尝试在磁盘框架上执行分组,但出现此错误
序列化错误(数据,node$con):写入与磁盘框架的连接时出错
我想知道是否可以通过更改块的大小来解决这个问题。这似乎表明我的块太大而无法处理(我的文件有 16 个块)。我正在考虑用 30 个块重新创建磁盘帧,每个块都小得多,然后再次尝试使用我的聚合。具体来说,聚合正在做n_distinct
.
那个听起来是对的吗?