我有一个按升序排列的 N 个正数列表,从 L[0] 到 L[N-1]。
我想迭代 M 个不同列表元素的子集(没有替换,顺序不重要),1 <= M <= N,根据它们的部分总和排序。M 不是固定的,最终结果应该考虑所有可能的子集。
我只想要有效的 K 个最小子集(理想情况下是 K 中的多项式)。枚举所有 M <= K 的子集的明显算法是 O(K!)。
我可以通过将 K 个迭代器 (1 <= M <= K) 放在一个最小堆中并让主迭代器在堆根上运行,将问题减少到固定大小 M 的子集。
本质上我需要 Python 函数调用:
sorted(itertools.combinations(L, M), key=sum)[:K]
...但高效(N ~ 200,K ~ 30),应该在不到 1 秒的时间内运行。
例子:
L = [1, 2, 5, 10, 11]
K = 8
answer = [(1,), (2,), (1,2), (5,), (1,5), (2,5), (1,2,5), (10,)]
回答:
正如大卫的回答所示,重要的技巧是要输出一个子集 S,必须先前输出 S 的所有子集,特别是仅删除了 1 个元素的子集。因此,每次输出一个子集时,您都可以添加该子集的所有 1 元素扩展以供考虑(最多为 K),并且仍然确保下一个输出的子集将在所有考虑的子集的列表中观点。
完全工作,更高效的 Python 函数:
def sorted_subsets(L, K):
candidates = [(L[i], (i,)) for i in xrange(min(len(L), K))]
for j in xrange(K):
new = candidates.pop(0)
yield tuple(L[i] for i in new[1])
new_candidates = [(L[i] + new[0], (i,) + new[1]) for i in xrange(new[1][0])]
candidates = sorted(candidates + new_candidates)[:K-j-1]
更新,找到了一个 O(K log K) 算法。
这类似于上面的技巧,但不是添加所有 1 元素扩展,其中添加的元素大于子集的最大值,您只考虑 2 个扩展:一个添加 max(S)+1,另一个添加将 max(S) 转换为 max(S) + 1 (最终将生成向右的所有 1 元素扩展)。
import heapq
def sorted_subsets_faster(L, K):
candidates = [(L[0], (0,))]
for j in xrange(K):
new = heapq.heappop(candidates)
yield tuple(L[i] for i in new[1])
i = new[1][-1]
if i+1 < len(L):
heapq.heappush(candidates, (new[0] + L[i+1], new[1] + (i+1,)))
heapq.heappush(candidates, (new[0] - L[i] + L[i+1], new[1][:-1] + (i+1,)))
从我的基准测试来看,所有 K 值都更快。
另外,不需要提前提供 K 的值,我们可以随时迭代和停止,而不改变算法的效率。另请注意,候选者的数量以 K+1 为界。
通过使用优先级双端队列(最小-最大堆)而不是优先级队列,可能会进一步改进,但坦率地说,我对这个解决方案很满意。不过,我会对线性算法感兴趣,或者证明这是不可能的。