我正在大型数据集上实现聚类算法。数据集位于文本文件中,包含超过 1 亿条记录。每条记录包含 3 个数字字段。
1,1503895,4
3,2207774,5
6,2590061,3
...
如果可能,我需要将所有这些数据保存在内存中,因为根据我的聚类算法,我需要随机访问该文件中的记录。因此,我无法按照在大文件中查找重复项中所述执行任何分区和合并方法
这个问题有哪些可能的解决方案?我可以使用像 ehcache 这样的缓存技术吗?
我正在大型数据集上实现聚类算法。数据集位于文本文件中,包含超过 1 亿条记录。每条记录包含 3 个数字字段。
1,1503895,4
3,2207774,5
6,2590061,3
...
如果可能,我需要将所有这些数据保存在内存中,因为根据我的聚类算法,我需要随机访问该文件中的记录。因此,我无法按照在大文件中查找重复项中所述执行任何分区和合并方法
这个问题有哪些可能的解决方案?我可以使用像 ehcache 这样的缓存技术吗?