30

众所周知,分区问题是 NP 难的。根据问题的特定实例,我们可以尝试动态编程或一些启发式算法,如差分(也称为 Karmarkar-Karp 算法)。

后者似乎对于具有大量数字的实例非常有用(这使得动态编程变得难以处理),但并不总是完美的。找到更好的解决方案(随机、禁忌搜索、其他近似)的有效方法是什么?

PS:这个问题背后有一些故事。自 2004 年 7 月以来,SPOJ 提供了Johnny Goes Shopping的挑战。到目前为止,该挑战已被 1087 名用户解决,但其中只有 11 人的得分高于正确的 Karmarkar-Karp 算法实现(当前评分,Karmarkar-Karp 给出 11.796614点)。如何做得更好?(最想要的已接受提交支持的答案,但请不要透露您的代码。)

4

3 回答 3

18

有许多论文描述了用于集合划分的各种高级算法。这里只有其中两个:

老实说,我不知道他们中的哪一个提供了更有效的解决方案。可能这些高级算法都不需要解决 SPOJ 问题。Korf 的论文还是很有用的。那里描述的算法非常简单(易于理解和实现)。他还概述了几个更简单的算法(在第 2 节中)。因此,如果您想了解 Horowitz-Sahni 或 Schroeppel-Shamir 方法的详细信息(如下所述),您可以在 Korf 的论文中找到它们。此外(在第 8 节中)他写道,随机方法并不能保证足够好的解决方案。因此,您不太可能通过爬山、模拟退火或禁忌搜索等方式获得显着改进。

我尝试了几种简单的算法及其组合来解决大小高达 10000、最大值高达 10 14和时间限制为 4 秒的分区问题。他们在随机均匀分布的数字上进行了测试。并且为我尝试的每个问题实例找到了最佳解决方案。对于某些问题实例的最优性是由算法保证的,而对于另一些问题实例的最优性不是 100% 保证的,但是得到次优解的概率非常小。

算法之间划分的问题空间

对于最大为 4 的尺寸(左侧的绿色区域),Karmarkar-Karp 算法始终给出最佳结果。

对于最大 54 的大小,蛮力算法足够快(红色区域)。可以在 Horowitz-Sahni 或 Schroeppel-Shamir 算法之间进行选择。我使用了 Horowitz-Sahni,因为它对于给定的限制似乎更有效。Schroeppel-Shamir 使用的内存要少得多(所有内容都适合 L2 缓存),因此当其他 CPU 内核执行一些内存密集型任务或使用多个线程进行设置分区时,它可能更可取。或者在没有严格的时间限制的情况下解决更大的问题(Horowitz-Sahni 只是内存不足)。

当大小乘以所有值之和小于 5*10 9(蓝色区域)时,适用动态规划方法。图表上的蛮力和动态编程区域之间的边界显示了每种算法表现更好的地方。

右边的绿色区域是 Karmarkar-Karp 算法以几乎 100% 的概率给出最优结果的地方。这里有很多完美的分区选项(delta 0 或 1),以至于 Karmarkar-Karp 算法几乎肯定会找到其中之一。可以发明 Karmarkar-Karp 总是给出次优结果的数据集。例如 {17 13 10 10 10 ...}。如果将其乘以某个大数,KK 和 DP 都无法找到最优解。幸运的是,这样的数据集在实践中是非常不可能的。但是问题制定者可以添加这样的数据集,使比赛更加困难。在这种情况下,您可以选择一些高级算法以获得更好的结果(但仅适用于图表上的灰色和右绿色区域)。

我尝试了 2 种方法来实现 Karmarkar-Karp 算法的优先级队列:最大堆和排序数组。线性搜索的排序数组选项似乎稍微快一些,而二分搜索的速度明显更快。

黄色区域是您可以在保证最佳结果(使用 DP)或仅具有高概率的最佳结果(使用 Karmarkar-Karp)之间进行选择的地方。

最后,灰色区域,简单的算法本身都不能给出最佳结果。在这里,我们可以使用 Karmarkar-Karp 对数据进行预处理,直到它适用于 Horowitz-Sahni 或动态规划。在这个地方也有很多完美的分区选项,但比绿色区域少,所以 Karmarkar-Karp 本身有时会错过正确的分区。更新:正如@mhum 所指出的,没有必要实现动态编程算法来使事情正常进行。带有 Karmarkar-Karp 预处理的 Horowitz-Sahni 就足够了。但是对于 Horowitz-Sahni 算法来说,在所述时间限制内处理高达 54 的大小以(几乎)保证最佳分区是必不可少的。因此,C++ 或其他具有良好优化编译器和快速计算机的语言是首选。

以下是我将 Karmarkar-Karp 与其他算法相结合的方法:

template<bool Preprocess = false>
i64 kk(const vector<i64>& values, i64 sum, Log& log)
{
    log.name("Karmarkar-Karp");
    vector<i64> pq(values.size() * 2);
    copy(begin(values), end(values), begin(pq) + values.size());
    sort(begin(pq) + values.size(), end(pq));
    auto first = end(pq);
    auto last = begin(pq) + values.size();

    while (first - last > 1)
    {
        if (Preprocess && first - last <= kHSLimit)
        {
            hs(last, first, sum, log);
            return 0;
        }
        if (Preprocess && static_cast<double>(first - last) * sum <= kDPLimit)
        {
            dp(last, first, sum, log);
            return 0;
        }
        const auto diff = *(first - 1) - *(first - 2);
        sum -= *(first - 2) * 2;
        first -= 2;
        const auto place = lower_bound(last, first, diff);
        --last;
        copy(last + 1, place, last);
        *(place - 1) = diff;
    }

    const auto result = (first - last)? *last: 0;
    log(result);
    return result;
}

链接到完整的 C++11 实现。该程序仅确定分区总和之间的差异,它不报告分区本身。警告:如果您想在可用内存小于 1 Gb 的计算机上运行它,请减小kHSLimit常数。

于 2015-09-08T21:08:00.190 回答
15

不管它有什么价值,在 [Korf88] 中“完整的 Karmarkar Karp”(CKK)搜索过程的一个简单的、未优化的 Python 实现 - 仅稍作修改以在给定的时间限制(例如 4.95 秒)后退出搜索和返回迄今为止找到的最佳解决方案——足以在 SPOJ 问题上得分14.204234,超过 Karmarkar-Karp 的得分。在撰写本文时,这是排名第 3 位请参阅下面的编辑#2

可以在 [Mert99] 中找到关于 Korf 的 CKK 算法的更易读的介绍。


编辑#2 - 我已经实现了Evgeny Kluev 的混合启发式应用 Karmarkar-Karp 直到数字列表低于某个阈值,然后切换到确切的 Horowitz-Sahni 子集枚举方法 [HS74](可以在[Korf88])。正如怀疑的那样,与他的 C++ 实现相比,我的 Python 实现需要降低切换阈值。经过反复试验,我发现阈值 37 是允许我的程序在时间限制内完成的最大值。然而,即使在那个较低的门槛下,我也能获得15.265633的分数,足以获得第二名

我进一步尝试将这种混合 KK/HS 方法合并到 CKK 树搜索中,基本上是通过使用 HS 作为一种非常激进且昂贵的修剪策略。在普通的 CKK 中,我无法找到与 KK/HS 方法相匹配的切换阈值。但是,使用 CKK 和 HS(阈值为 25)的 ILDS(见下文)搜索策略进行修剪,我能够比之前的分数获得非常小的收益,最高为15.272802。在这种情况下,CKK+ILDS 的表现会优于普通的 CKK,这可能不足为奇,因为它在设计上会为 HS 阶段提供更多样化的输入。


编辑#1 - 我尝试了对基本 CKK 算法的两个进一步改进:

  1. “改进的有限差异搜索”(ILDS)[Korf96] 这是搜索树中自然 DFS 路径排序的替代方法。它倾向于比常规的深度优先搜索更早地探索更多样化的解决方案。

  2. “加速 2-Way Number Partitioning” [Cerq12] 这将 CKK 中的修剪标准之一从叶节点的 4 级内的节点推广到叶节点以上的 5、6 和 7 级内的节点。

在我的测试用例中,与原始 CKK 相比,这两种改进通常在减少探索的节点数量(在后者的情况下)和更快地获得更好的解决方案(在前者的情况下)方面提供了明显的好处。然而,在 SPOJ 问题结构的范围内,这些都不足以提高我的分数。

鉴于这个 SPOJ 问题的特殊性质(即:5 秒的时间限制和只有一个特定且未公开的问题实例),很难就什么可以实际提高分数给出建议*。例如,我们是否应该继续采用替代搜索排序策略(例如:Wheeler Ruml 的许多论文在此处列出)? 或者我们应该尝试将某种形式的局部改进启发式结合到 CKK 找到的解决方案中以帮助修剪?或者也许我们应该完全放弃基于 CKK 的方法并尝试动态编程方法?PTAS怎么样?在不了解 SPOJ 问题中使用的实例的具体形状的情况下,很难猜测哪种方法会产生最大的好处。每个都有其优点和缺点,具体取决于给定实例的特定属性。

* 除了简单地更快地运行相同的东西,比如说,通过用 C++ 而不是 Python 实现。


参考

[Cerq12] Cerquides、Jesús 和 Pedro Meseguer。“加速 2 路号码分区”。ECAI。2012,doi:10.3233/978-1-61499-098-7-223

[HS74] 霍洛维茨、埃利斯和 Sartaj Sahni。“计算分区与背包问题的应用。 ” ACM 杂志 (JACM) 21.2 (1974): 277-292。

[Korf88] Korf,Richard E. (1998),“用于数字划分的完整随时算法”,人工智能 106 (2): 181–203, doi: 10.1016/S0004-3702(98)00086-1 ,

[Korf96] Korf, Richard E. “改进的有限差异搜索”。AAAI/IAAI,卷。1. 1996 年。

[Mert99] Mertens, Stephan (1999), 平衡数分区的完整随时算法, arXiv: cs/9903011

于 2015-09-09T14:22:28.323 回答
6

编辑这是一个从 Karmarkar-Karp 差分开始的实现,然后尝试优化生成的分区。

时间允许的唯一优化是从一个分区向另一个分区提供 1,并在两个分区之间交换 1 换 1。

我在开始时对 Karmarkar-Karp 的实现一定是不准确的,因为仅使用 Karmarkar-Karp 得到的分数是2.711483而不是OP 引用的 11.796614 点。使用优化时得分为7.718049

SPOILER WARNING C# 提交代码如下

using System;
using System.Collections.Generic;
using System.Linq;
public class Test
{
    // some comparer's to lazily avoid using a proper max-heap implementation
    public class Index0 : IComparer<long[]>
    {
        public int Compare(long[] x, long[] y)
        {
            if(x[0] == y[0]) return 0;
            return x[0] < y[0] ? -1 : 1;
        }
        public static Index0 Inst = new Index0();
    }
    public class Index1 : IComparer<long[]>
    {
        public int Compare(long[] x, long[] y)
        {
            if(x[1] == y[1]) return 0;
            return x[1] < y[1] ? -1 : 1;
        }
    }

    public static void Main()
    {
        // load the data
        var start = DateTime.Now;
        var list = new List<long[]>();
        int size = int.Parse(Console.ReadLine());
        for(int i=1; i<=size; i++) {
            var tuple = new long[]{ long.Parse(Console.ReadLine()), i };
            list.Add(tuple);
        }
        list.Sort((x, y) => { if(x[0] == y[0]) return 0; return x[0] < y[0] ? -1 : 1; });

        // Karmarkar-Karp differences
        List<long[]> diffs = new List<long[]>();
        while(list.Count > 1) {
            // get max
            var b = list[list.Count - 1];
            list.RemoveAt(list.Count - 1);
            // get max
            var a = list[list.Count - 1];
            list.RemoveAt(list.Count - 1);
            // (b - a)
            var diff = b[0] - a[0];
            var tuple = new long[]{ diff, -1 };
            diffs.Add(new long[] { a[0], b[0], diff, a[1], b[1] });
            // insert (b - a) back in
            var fnd = list.BinarySearch(tuple, new Index0());
            list.Insert(fnd < 0 ? ~fnd : fnd, tuple);
        }
        var approx = list[0];
        list.Clear();

        // setup paritions
        var listA = new List<long[]>();
        var listB = new List<long[]>();
        long sumA = 0;
        long sumB = 0;

        // Karmarkar-Karp rebuild partitions from differences
        bool toggle = false;
        for(int i=diffs.Count-1; i>=0; i--) {
            var inB = listB.BinarySearch(new long[]{diffs[i][2]}, Index0.Inst);
            var inA = listA.BinarySearch(new long[]{diffs[i][2]}, Index0.Inst);
            if(inB >= 0 && inA >= 0) {
                toggle = !toggle;
            }
            if(toggle == false) {
                if(inB >= 0) {
                    listB.RemoveAt(inB);
                }else if(inA >= 0) {
                    listA.RemoveAt(inA);
                }
                var tb = new long[]{diffs[i][1], diffs[i][4]};
                var ta = new long[]{diffs[i][0], diffs[i][3]};
                var fb = listB.BinarySearch(tb, Index0.Inst);
                var fa = listA.BinarySearch(ta, Index0.Inst);
                listB.Insert(fb < 0 ? ~fb : fb, tb);
                listA.Insert(fa < 0 ? ~fa : fa, ta);
            } else {
                if(inA >= 0) {
                    listA.RemoveAt(inA);
                }else if(inB >= 0) {
                    listB.RemoveAt(inB);
                }
                var tb = new long[]{diffs[i][1], diffs[i][4]};
                var ta = new long[]{diffs[i][0], diffs[i][3]};
                var fb = listA.BinarySearch(tb, Index0.Inst);
                var fa = listB.BinarySearch(ta, Index0.Inst);
                listA.Insert(fb < 0 ? ~fb : fb, tb);
                listB.Insert(fa < 0 ? ~fa : fa, ta);
            }
        }
        listA.ForEach(a => sumA += a[0]);
        listB.ForEach(b => sumB += b[0]);

        // optimize our partitions with give/take 1 or swap 1 for 1
        bool change = false;
        while(DateTime.Now.Subtract(start).TotalSeconds < 4.8) {
            change = false;
            // give one from A to B
            for(int i=0; i<listA.Count; i++) {
                var a = listA[i];
                if(Math.Abs(sumA - sumB) > Math.Abs((sumA - a[0]) - (sumB + a[0]))) {
                    var fb = listB.BinarySearch(a, Index0.Inst);
                    listB.Insert(fb < 0 ? ~fb : fb, a);
                    listA.RemoveAt(i);
                    i--;
                    sumA -= a[0];
                    sumB += a[0];
                    change = true;
                } else {break;}
            }
            // give one from B to A
            for(int i=0; i<listB.Count; i++) {
                var b = listB[i];
                if(Math.Abs(sumA - sumB) > Math.Abs((sumA + b[0]) - (sumB - b[0]))) {
                    var fa = listA.BinarySearch(b, Index0.Inst);
                    listA.Insert(fa < 0 ? ~fa : fa, b);
                    listB.RemoveAt(i);
                    i--;
                    sumA += b[0];
                    sumB -= b[0];
                    change = true;
                } else {break;}
            }
            // swap 1 for 1
            for(int i=0; i<listA.Count; i++) {
                var a = listA[i];
                for(int j=0; j<listB.Count; j++) {
                    var b = listB[j];
                    if(Math.Abs(sumA - sumB) > Math.Abs((sumA - a[0] + b[0]) - (sumB -b[0] + a[0]))) {
                        listA.RemoveAt(i);
                        listB.RemoveAt(j);
                        var fa = listA.BinarySearch(b, Index0.Inst);
                        var fb = listB.BinarySearch(a, Index0.Inst);
                        listA.Insert(fa < 0 ? ~fa : fa, b);
                        listB.Insert(fb < 0 ? ~fb : fb, a);
                        sumA = sumA - a[0] + b[0];
                        sumB = sumB - b[0] + a[0];
                        change = true;
                        break;
                    }
                }
            }
            //
            if(change == false) { break; }
        }

        /*
        // further optimization with 2 for 1 swaps
        while(DateTime.Now.Subtract(start).TotalSeconds < 4.8) {
            change = false;
            // trade 2 for 1
            for(int i=0; i<listA.Count >> 1; i++) {
                var a1 = listA[i];
                var a2 = listA[listA.Count - 1 - i];
                for(int j=0; j<listB.Count; j++) {
                    var b = listB[j];
                    if(Math.Abs(sumA - sumB) > Math.Abs((sumA - a1[0] - a2[0] + b[0]) - (sumB - b[0] + a1[0] + a2[0]))) {
                        listA.RemoveAt(listA.Count - 1 - i);
                        listA.RemoveAt(i);
                        listB.RemoveAt(j);
                        var fa = listA.BinarySearch(b, Index0.Inst);
                        var fb1 = listB.BinarySearch(a1, Index0.Inst);
                        var fb2 = listB.BinarySearch(a2, Index0.Inst);
                        listA.Insert(fa < 0 ? ~fa : fa, b);
                        listB.Insert(fb1 < 0 ? ~fb1 : fb1, a1);
                        listB.Insert(fb2 < 0 ? ~fb2 : fb2, a2);
                        sumA = sumA - a1[0] - a2[0] + b[0];
                        sumB = sumB - b[0] + a1[0] + a2[0];
                        change = true;
                        break;
                    }
                }
            }
            //
            if(DateTime.Now.Subtract(start).TotalSeconds > 4.8) { break; }
            // trade 2 for 1
            for(int i=0; i<listB.Count >> 1; i++) {
                var b1 = listB[i];
                var b2 = listB[listB.Count - 1 - i];
                for(int j=0; j<listA.Count; j++) {
                    var a = listA[j];
                    if(Math.Abs(sumA - sumB) > Math.Abs((sumA - a[0] + b1[0] + b2[0]) - (sumB - b1[0] - b2[0] + a[0]))) {
                        listB.RemoveAt(listB.Count - 1 - i);
                        listB.RemoveAt(i);
                        listA.RemoveAt(j);
                        var fa1 = listA.BinarySearch(b1, Index0.Inst);
                        var fa2 = listA.BinarySearch(b2, Index0.Inst);
                        var fb = listB.BinarySearch(a, Index0.Inst);
                        listA.Insert(fa1 < 0 ? ~fa1 : fa1, b1);
                        listA.Insert(fa2 < 0 ? ~fa2 : fa2, b2);
                        listB.Insert(fb < 0 ? ~fb : fb, a);
                        sumA = sumA - a[0] + b1[0] + b2[0];
                        sumB = sumB - b1[0] - b2[0] + a[0];
                        change = true;
                        break;
                    }
                }
            }
            //
            if(change == false) { break; }
        }
        */

        // output the correct ordered values
        listA.Sort(new Index1());
        foreach(var t in listA) {
            Console.WriteLine(t[1]);
        }

        // DEBUG/TESTING
        //Console.WriteLine(approx[0]);
        //foreach(var t in listA) Console.Write(": " + t[0] + "," + t[1]);
        //Console.WriteLine();
        //foreach(var t in listB) Console.Write(": " + t[0] + "," + t[1]);

    }
}
于 2015-09-04T14:30:53.247 回答