9

在限制语义丢失的同时,将简单数据帧保存到 R 中的磁盘进行存储的最佳格式是什么?

我问是因为我正在归档一个数据集。在理想情况下,我的数据格式将具有以下特征:

  1. 稳定性 - 存储格式将与 R 的未来版本兼容
  2. 语义兼容性——存储格式将理解 R 的原始数据类型的语义。例如,它将能够以合理的方式存储带有标签的有序因子。
  3. 开放标准 - 理想情况下,该格式将是一个开放标准,因此其他统计数据包(现在或将来)将能够理解它

我的第一个想法是使用非常稳定的 CSV,但缺乏所需的语义丰富性。另一方面,R 的内置 RData 格式完全捕获了 R 的语义,但似乎可能会在版本之间发生变化(如果我错了,请纠正我)。

是否有另一种格式可以在这三个命令之间找到平衡?

4

1 回答 1

4

将其转储到带有dput. 这样你就可以得到 R 对象的所有结构,并且它是基于文本的形式,如果 R 停止存在,可以相当容易地解析。

它可能没有通过 (3),您的“开放标准”测试。

R 非常适合向后兼容其 .RData 格式,因此即使最新的 R 写入的文件与旧的不同,最新的 R 仍会读取旧文件。但是,如果 R 应该停止存在,那么二进制格式的逆向工程比从dput.

于 2013-03-09T12:18:59.030 回答