java - java处理大量数据

Question

我正在大型数据集上实现聚类算法。数据集位于文本文件中，包含超过 1 亿条记录。每条记录包含 3 个数字字段。

1,1503895,4
3,2207774,5
6,2590061,3
...

如果可能，我需要将所有这些数据保存在内存中，因为根据我的聚类算法，我需要随机访问该文件中的记录。因此，我无法按照在大文件中查找重复项中所述执行任何分区和合并方法

这个问题有哪些可能的解决方案？我可以使用像 ehcache 这样的缓存技术吗？

score 0 · Accepted Answer

3 亿个整数不应该消耗那么多内存。尝试实例化一个包含 3 亿个整数的数组。根据我的计算，在 64 位机器上，大约是 1.2 GB。

1 回答 1