0

我在 Postgres 数据库中有大量事件数据集,太大而无法在内存中分析。因此,我想将日期时间量化为定期间隔,并在返回结果之前在数据库中执行分组操作。我想我会使用 SqlSoup 来遍历相应表中的记录并进行必要的转换。不幸的是,我无法弄清楚如何以一种不会将每条记录的引用一次加载到内存中的方式执行迭代。是否有某种方法可以一次获取一个记录引用,以便访问数据并根据需要更新每条记录?

任何建议将不胜感激!

克里斯

4

1 回答 1

1

在与一些人交谈之后,很明显更好的答案是使用 Pig 在本地处理和聚合我的数据。在规模上,我正在操作它并不清楚 Hadoop 是否是合适的工具。一位与我交谈过的人表示,在我的操作规模约为 10^7 条记录时,Pig 将比数据库内操作快几个数量级。

于 2012-04-28T02:31:38.267 回答