我必须编写一个程序,将 10'000'000+ 个实体相互比较。实体基本上是数据库/csv 文件中的扁平行。
比较算法必须非常灵活,它基于最终用户输入规则的规则引擎,每个实体都与其他实体匹配。
我正在考虑如何将这项任务拆分为更小的工作量,但我还没有找到任何东西。由于规则是由最终用户输入的,因此对 DataSet 进行预排序似乎是不可能的。
我现在要做的是将整个 DataSet 放入内存并处理每个项目。但这效率不高,需要大约。20 GB 内存(压缩)。
您知道如何拆分工作负载或减小其大小吗?
谢谢