c++ - Qt 程序的速度性能：Windows 与 Linux

Question

我已经在这里发布了这个问题，但由于它可能不是特定于 Qt 的，我想我也可以在这里试试我的机会。我希望这样做不是不合适的（告诉我是否合适）。

我开发了一个小型科学程序来执行一些数学计算。我试图优化它，使其尽可能快。现在我几乎完成了为 Windows、Mac 和 Linux 用户部署它。但是我还不能在许多不同的计算机上测试它。

这让我感到困扰：为了部署 Windows，我使用了一台同时安装了 Windows 7 和 Ubuntu 12.04 的笔记本电脑（双启动）。我比较了在这两个系统上运行的应用程序的速度，我震惊地发现它在 Windows 上至少慢了一倍！如果有一点点差异，我不会感到惊讶，但是如何解释这样的差异呢？

这里有几个精度：

我让程序做的计算只是一些残酷而愚蠢的数学计算，基本上，它在一个称为十亿次的循环中计算乘积和余弦。另一方面，计算是多线程的：我启动了类似 6 个 QThreads 的东西。
笔记本电脑有两个核心@1.73Ghz。起初我认为 Windows 可能没有使用其中一个内核，但后来我查看了处理器活动，根据小图形，两个内核都在 100% 运行。
然后我认为适用于 Windows 的 C++ 编译器没有使用适用于 Linux 的 C++ 编译器自动执行的优化选项（例如 -O1 -O2）（在发布版本中），但显然确实如此。

我很困扰该应用程序在 Windows 上的速度太慢（2 到 4 倍），这真的很奇怪。另一方面，我还没有在其他装有 Windows 的计算机上尝试过。不过，您知道为什么会有差异吗？

附加信息：一些数据……</p>

尽管 Windows 似乎使用了两个内核，但我认为这可能与线程管理有关，原因如下：

示例计算 n°1（这个启动 2 个 QThreads）：

PC1-windows：7.33s
PC1-linux：3.72s
PC2-linux：1.36s

示例计算 n°2（这个启动 3 个 QThreads）：

PC1-windows：6.84s
PC1-linux：3.24s
PC2-linux：1.06s

示例计算 n°3（这个启动 6 个 QThreads）：

PC1-windows：8.35s
PC1-linux：2.62s
PC2-linux：0.47s

在哪里：

PC1-windows = 我的 2 核笔记本电脑 (@1.73Ghz)，装有 Windows 7
PC1-linux = 我的 2 核笔记本电脑 (@1.73Ghz) 和 Ubuntu 12.04
PC2-linux = 我的 8 核笔记本电脑 (@2.20Ghz) 和 Ubuntu 12.04

（当然，PC2 的速度更快并不令人震惊。令我难以置信的是 PC1-windows 和 PC1-linux 之间的差异）。

注意：我还尝试在 Mac OS 下的最近的 PC（4 或 8 核 @~3Ghz，不记得确切）上运行该程序，速度与 PC2-linux 相当（或略快）。

编辑：我将在这里回答我在评论中被问到的几个问题。

我刚刚在 Windows 上安装了 Qt SDK，所以我想我拥有所有东西的最新版本（包括 MinGW？）。编译器是 MinGW。Qt 版本是 4.8.1。
我没有使用优化标志，因为我注意到当我以发布模式（使用 Qt Creator）构建时会自动使用它们。在我看来，如果我写类似 QMAKE_CXXFLAGS += -O1 的东西，这只对调试构建有影响。
线程的生命周期等：这很简单。当用户单击“计算”按钮时，会同时启动 2 到 6 个线程（取决于他正在计算的内容），当计算结束时它们将被终止。没什么太花哨的。每个线程都只是进行残酷的计算（实际上除了一个，它每 30 毫秒进行一次（不那么）小“计算，基本上检查错误是否足够小）。

编辑：最新发展和部分答案

以下是一些新的发展，可以为所有这些提供答案：

我想确定速度差异是否真的与线程有关。所以我修改了程序，使计算只使用 1 个线程，这样我们就可以比较“纯 C++ 代码”的性能。事实证明，现在 Windows 只比 Linux 慢一点（大约 15%）。所以我猜想差异的一小部分（但并非不重要）是系统固有的，但最大的部分是由于线程管理。
正如评论中所建议的那样（Luca Carlon，谢谢），我尝试使用 Microsoft Visual Studio (MSVC) 的编译器而不是 MinGW 来构建应用程序。令人惊讶的是，计算（包含所有线程和所有内容）现在“仅”比 Linux 慢 20% 到 50%！我想我会继续前进并对此感到满意。我注意到奇怪的是，“纯 C++”计算（只有一个线程）现在甚至更慢（比使用 MinGW），这必须解释整体差异。据我所知，MinGW 比 MSVC 稍微好一点，只是它处理线程的方式像个白痴。

所以，我想要么我可以做一些事情来让 MinGW（理想情况下我宁愿使用它而不是 MSVC）更好地处理线程，或者它不能。我会很惊讶，它怎么可能不为人所知和记录在案？尽管我想我应该小心不要太快得出结论，但我只在一台计算机上比较了东西（目前）。

score 4 · Accepted Answer

另一种选择可能是：在 linux 上，qt 刚刚加载，这可能会发生，即如果您使用 KDE，而在 Windows 中必须加载库，这样会减慢计算时间。要检查有多少库加载浪费了您的应用程序，您可以使用纯 C++ 代码编写一个虚拟测试。

score 0 · Accepted Answer

我听说过一种情况，如果你做错了，Windows 写入文件的速度会非常慢。（这与 Qt 无关。）

这种情况下的问题是，开发人员使用了 SQLite 数据库，编写了大约 10000 个数据集，并且COMMIT在每次插入后都执行了 SQL。这导致 Windows 每次都将整个 DB 文件写入磁盘，而 Linux 只会更新 RAM 中文件系统 inode 的缓冲版本。在这种情况下，速度差异甚至更糟：Linux 上为 1 秒，而 Windows 上为 1 分钟。（在他将 SQLite 更改为最后只提交一次之后，在 Windows 上也是 1 秒。）

因此，如果您要将计算结果写入磁盘，您可能需要检查您是否正在调用fsync()或fflush()过于频繁。如果您的编写代码来自库，您可以使用strace它（仅限 Linux，但应该给您一个基本的想法）。

score 0 · Accepted Answer

您可能会因互斥体在 Windows 和 Linux 上的运行方式而遇到性能差异。

每次在锁定时发生资源争用时，Windows 上的纯互斥代码可以等待 15 毫秒。在 Windows 上执行更好的同步机制是关键部分。在大多数情况下，它不会遇到常规互斥锁所经历的锁定惩罚。

我发现在 Linux 上，常规互斥锁的性能与 Windows 上的关键部分相同。

score 0 · Accepted Answer

可能是内存分配器，尝试使用Google 的jemalloc或tcmalloc。Glibc 的 ptmalloc3 明显优于 MSVC 的 crt 中旧的硬壳分配器。Microsoft 的类似选项是并发 CRT，但您不能简单地将其作为替代品放入。

score 0 · Accepted Answer

我注意到我的电脑上的行为完全相同。我正在运行 Windows 7（64 位）、Ubuntu（64 位）和 OSX（Lion 64 位），我的程序比较了 2 个 XML 文件（每个文件超过 60Mb）。它也使用多线程（2个线程）：

-Windows : 40sec

-Linux : 14sec (!!!)

-OSX : 22sec.

我使用个人线程类（而不是 Qt 类），它在 linux/OSX 上使用“pthread”，在 Windows 上使用“threads”。我使用 Qt/mingw 编译器，因为我需要来自 Qt 的 XML 类。

我发现（目前）没有办法让 3 个操作系统具有类似的性能......但我希望我会！

我认为另一个原因可能是内存：我的程序使用了大约 500Mb 的 RAM。所以我认为 Unix 管理得最好，因为在单线程中，Windows 正好慢 1.89 倍，我不认为 Linux 可以慢 2 倍以上！

c++ - Qt 程序的速度性能：Windows 与 Linux

5 回答 5

Related

Reference