0

在 python 中创建了一个大数据框(几百万行,几千列)。此数据帧将使用 PyRserve 传递给 R。这必须很快——最多几秒钟。

pandas 中有一个 to_json 函数。对于如此大的对象来说,往返 json 对话是唯一的方法吗?这么大的物体可以吗?

我总是可以将它写入磁盘并读取它(使用 fread 快速,这就是我所做的),但是最好的方法是什么?

4

1 回答 1

2

在没有尝试过的情况下,这to_json似乎是一个非常糟糕的主意,随着更大的数据帧变得更糟,因为这在写入和读取数据方面都有很多开销。

我建议使用 rpy2 (由 pandas 直接支持),或者,如果您想将某些内容写入磁盘(可能是因为数据帧只生成一次),您可以使用HDF5(有关连接 pandas 和 R 的更多信息,请参阅此线程使用这种格式)。

于 2013-08-26T08:17:03.557 回答