我将在 R 中进行一些日志文件分析(除非我不能在 R 中进行),并且我知道我的数据需要适合 RAM(除非我使用某种修复方法,例如 keyval 存储的接口,也许?)。所以我想知道如何提前知道我的数据将在 RAM 中占用多少空间,以及我是否有足够的空间。我知道我有多少 RAM(不是很大——在 XP 下是 3GB),并且我知道我的日志文件最终将有多少行和列以及列条目应该是什么数据类型(大概我需要检查为它读取)。
我如何将这些组合成一个 go/nogo 决策以在 R 中进行分析?(大概 R 需要能够有一些 RAM 来执行操作,以及保存数据!)我立即需要的输出是一堆简单的摘要统计信息、频率、意外事件等,所以我可能会写一些解析器/制表器将为我提供短期所需的输出,但我也想在下一步使用许多不同的方法来处理这些数据,所以我正在研究使用 R 的可行性。
我在这里看到了很多关于 R 中大型数据集的有用建议,我已经阅读并将重新阅读,但现在我想更好地了解如何确定我是否应该(a)去那里,(b)去在那里但希望必须做一些额外的事情以使其易于管理,或者(c)在为时已晚之前逃跑并在其他语言/环境中做一些事情(欢迎提出建议......!)。谢谢!