0

我正在大型数据集上实现聚类算法。数据集位于文本文件中,包含超过 1 亿条记录。每条记录包含 3 个数字字段。

1,1503895,4
3,2207774,5
6,2590061,3
...

如果可能,我需要将所有这些数据保存在内存中,因为根据我的聚类算法,我需要随机访问该文件中的记录。因此,我无法按照在大文件中查找重复项中所述执行任何分区和合并方法

这个问题有哪些可能的解决方案?我可以使用像 ehcache 这样的缓存技术吗?

4

1 回答 1

0

3 亿个整数不应该消耗那么多内存。尝试实例化一个包含 3 亿个整数的数组。根据我的计算,在 64 位机器上,大约是 1.2 GB。

于 2013-01-26T00:23:43.690 回答