java - 多线程程序没有加速

Question

我在玩 Go 语言并发，发现了一些对我来说有点不透明的东西。

我写了并行矩阵乘法，即每个任务计算单行乘积矩阵，将源矩阵的相应行和列相乘。

这是Java程序

public static double[][] parallelMultiply(int nthreads, final double[][] m1, final double[][] m2) {
    final int n = m1.length, m = m1[0].length, l = m2[0].length;
    assert m1[0].length == m2.length;

    double[][] r = new double[n][];

    ExecutorService e = Executors.newFixedThreadPool(nthreads);
    List<Future<double[]>> results = new LinkedList<Future<double[]>>();
    for (int ii = 0; ii < n; ++ii) {
        final int i = ii;
        Future<double[]> result = e.submit(new Callable<double[]>() {
            public double[] call() throws Exception {
                double[] row = new double[l];
                for (int j = 0; j < l; ++j) {
                    for (int k = 0; k < m; ++k) {
                        row[j] += m1[i][k]*m2[k][j];
                    }
                }
                return row;
            }
        });
        results.add(result);
    }
    try {
        e.shutdown();
        e.awaitTermination(1, TimeUnit.HOURS);
        int i = 0;
        for (Future<double[]> result : results) {
            r[i] = result.get();
            ++i;
        }
    } catch (Exception ex) {
        ex.printStackTrace();
        return null;
    }

    return r;
}

这是围棋程序

type Matrix struct {
    n, m int
    data [][]float64
}

func New(n, m int) *Matrix {
    data := make([][]float64, n)
    for i, _ := range data {
        data[i] = make([]float64, m)
    }
    return &Matrix{n, m, data}
}

func (m *Matrix) Get(i, j int) float64 {
    return m.data[i][j]
}

func (m *Matrix) Set(i, j int, v float64) {
    m.data[i][j] = v
}

func MultiplyParallel(m1, m2 *Matrix) *Matrix {
    r := New(m1.n, m2.m)

    c := make(chan interface{}, m1.n)
    for i := 0; i < m1.n; i++ {
        go func(i int) {
            innerLoop(r, m1, m2, i)
            c <- nil
        }(i)
    }

    for i := 0; i < m1.n; i++ {
        <-c
    }

    return r
}

func innerLoop(r, m1, m2 *Matrix, i int) {
    for j := 0; j < m2.m; j++ {
        s := 0.0
        for k := 0; k < m1.m; k++ {
            s = s + m1.Get(i, k) * m2.Get(k, j)
        }
        r.Set(i, j, s)
    }
}

当我使用 nthreads=1 和 nthreads=2 的 Java 程序时，我的双核 N450 Atom 上网本的速度几乎提高了一倍。当我使用 GOMAXPROCS=1 和 GOMAXPROCS=2 的 Go 程序时，根本没有加速！

尽管 Java 代码为Futures 使用了额外的存储空间，然后将它们的值收集到结果矩阵中，而不是在工作代码中直接更新数组（Go 版本就是这样做的），但它在多个内核上的执行速度比 Go 版本快得多。

特别有趣的是，GOMAXPROCS=2 的 Go 版本同时加载两个内核（htop 在程序运行时显示两个处理器上 100% 的负载），但是计算时间与 GOMAXPROCS=1 相同（htop 仅在一个内核上显示 100% 的负载在这种情况下）。

另一个问题是，即使在简单的单线程乘法中，Java 程序也比 Go 程序更快，但这并不完全出乎意料（考虑到这里的基准），并且不应该影响多核性能倍增器。

我在这里做错了什么？有没有办法加速 Go 程序？

UPD：看来我发现我做错了什么。我正在使用shell 命令检查 java 程序System.currentTimeMillis()和 Go 程序的时间。time我错误地将 zsh 输出中的“用户”时间作为程序工作时间，而不是“总”时间。现在我再次检查了计算速度，它也给了我几乎两倍的加速（虽然它比 Java 的要小一些）：

% time env GOMAXPROCS=2 ./4-2-go -n 500 -q
env GOMAXPROCS=2 ./4-2-go -n 500 -q  22,34s user 0,04s system 99% cpu 22,483 total
% time env GOMAXPROCS=2 ./4-2-go -n 500 -q -p
env GOMAXPROCS=2 ./4-2-go -n 500 -q -p  24,09s user 0,10s system 184% cpu 13,080 total

看来我要多加注意了。

仍然 java 程序在同一情况下给出的时间要少五次。但我认为这是另一个问题。

score 11 · Accepted Answer

您可能正在经历虚假分享的影响。简而言之，如果两条数据恰好落在同一个 CPU 缓存行上，那么从在不同 CPU 内核上执行的线程修改这两条数据将触发昂贵的缓存一致性协议。

这种缓存“乒乓”非常难以诊断，并且可能发生在逻辑上完全不相关的数据上，只是因为它们恰好在内存中放置得足够近。100% 的 CPU 负载是错误共享的典型表现——你的内核确实在 100% 工作，它们只是没有在你的程序上工作——它们正在同步它们的缓存。

在 Java 程序中，您拥有线程私有数据，直到将其“集成”到最终结果中，这一事实使您免于虚假共享。我对 Go 不熟悉，但是根据您自己的话判断，线程是直接写入公共数组的，这正是可能触发错误共享的那种事情。这是一个完美有效的单线程推理如何在多线程环境中完全相反的示例！

关于该主题的更深入讨论，我强烈推荐 Herb Sutter 的文章：消除虚假共享，或讲座：机器架构：您的编程语言从未告诉过您的事情（以及相关的PDF 幻灯片）。

score 1 · Accepted Answer

如果您能够在 Linux 环境中运行这些代码，您可以使用perf来衡量虚假共享效果。

score 0 · Accepted Answer

对于 Linux、Windows 32 和同上 64，还有 AMD 的CodeXL和CodeAnalyst。由于适用的性能寄存器不同，他们将比英特尔更详细地分析在 AMD 处理器上运行的应用程序。

java - 多线程程序没有加速

3 回答 3

Related

Reference