让我解释一下这个问题:
我知道函数table
或xtabs
计算列联表,但他们需要一个始终存储在 RAM 中的 data.frame。尝试在大文件(比如 20 GB,我必须处理的最大值)上执行此操作时真的很痛苦。
另一方面,SAS 完全能够做到这一点,因为它逐行读取文件,并在此过程中更新结果。因此,RAM 中只有一条线,这更容易接受。
有时,我用特殊的 Python 程序做与 SAS 相同的事情,当我不得不做更复杂的事情时,要么我不知道如何在 SAS 中做,要么认为它太麻烦了。Python 语法和集成功能(字典、正则表达式......)弥补了它的弱点(主要是速度,但是当读取 20 GB 时,速度无论如何都会受到硬盘驱动器的限制)。
然后我的问题是:我想知道在 R 中是否有包可以执行此操作。我知道可以像在 Python 中那样逐行读取文件,但是在 a 上计算简单的统计数据(例如列联表)大文件是一项如此基本的任务,我觉得应该有一些或多或少的“集成”功能在统计包中完成。
请告诉我是否应该在“交叉验证”中提出这个问题。我有一个疑问,因为它更多的是关于软件而不是统计数据。