我不知道是否有任何算法可以为基于键的数据分区获取最佳分区(需要确保同一结果数据集中的相同键记录)。
例如:我有一个数据集需要分成两部分:</p>
key num_of_records
k1 20
k2 15
k3 2
k4 3
k5 5
有 2^5 种不同的分区。如
part1: k1 k3 k4 (total records: 25)
part2: k2 k5 (total records 20)
另一个分区是:
part1: k1 k4 (total records 23)
part2: k2 k3 k5 (total revords 22)
后一个分区比前一个分区要好,因为它允许记录的数量更均匀地分布在两个部分。
所以,我需要一个算法来找到最佳分区。
谁能给我一些关于这个话题的建议?我该如何解决这个问题?
谢谢。