16

我已经在这里发布了这个问题,但由于它可能不是特定于 Qt 的,我想我也可以在这里试试我的机会。我希望这样做不是不合适的(告诉我是否合适)。

我开发了一个小型科学程序来执行一些数学计算。我试图优化它,使其尽可能快。现在我几乎完成了为 Windows、Mac 和 Linux 用户部署它。但是我还不能在许多不同的计算机上测试它。

这让我感到困扰:为了部署 Windows,我使用了一台同时安装了 Windows 7 和 Ubuntu 12.04 的笔记本电脑(双启动)。我比较了在这两个系统上运行的应用程序的速度,我震惊地发现它在 Windows 上至少慢了一倍!如果有一点点差异,我不会感到惊讶,但是如何解释这样的差异呢?

这里有几个精度:

  • 我让程序做的计算只是一些残酷而愚蠢的数学计算,基本上,它在一个称为十亿次的循环中计算乘积和余弦。另一方面,计算是多线程的:我启动了类似 6 个 QThreads 的东西。
  • 笔记本电脑有两个核心@1.73Ghz。起初我认为 Windows 可能没有使用其中一个内核,但后来我查看了处理器活动,根据小图形,两个内核都在 100% 运行。
  • 然后我认为适用于 Windows 的 C++ 编译器没有使用适用于 Linux 的 C++ 编译器自动执行的优化选项(例如 -O1 -O2)(在发布版本中),但显然确实如此。

我很困扰该应用程序在 Windows 上的速度太慢(2 到 4 倍),这真的很奇怪。另一方面,我还没有在其他装有 Windows 的计算机上尝试过。不过,您知道为什么会有差异吗?

附加信息:一些数据……</p>

尽管 Windows 似乎使用了两个内核,但我认为这可能与线程管理有关,原因如下:

示例计算 n°1(这个启动 2 个 QThreads):

  • PC1-windows:7.33s
  • PC1-linux:3.72s
  • PC2-linux:1.36s

示例计算 n°2(这个启动 3 个 QThreads):

  • PC1-windows:6.84s
  • PC1-linux:3.24s
  • PC2-linux:1.06s

示例计算 n°3(这个启动 6 个 QThreads):

  • PC1-windows:8.35s
  • PC1-linux:2.62s
  • PC2-linux:0.47s

在哪里:

  • PC1-windows = 我的 2 核笔记本电脑 (@1.73Ghz),装有 Windows 7
  • PC1-linux = 我的 2 核笔记本电脑 (@1.73Ghz) 和 Ubuntu 12.04
  • PC2-linux = 我的 8 核笔记本电脑 (@2.20Ghz) 和 Ubuntu 12.04

(当然,PC2 的速度更快并不令人震惊。令我难以置信的是 PC1-windows 和 PC1-linux 之间的差异)。

注意:我还尝试在 Mac OS 下的最近的 PC(4 或 8 核 @~3Ghz,不记得确切)上运行该程序,速度与 PC2-linux 相当(或略快)。

编辑:我将在这里回答我在评论中被问到的几个问题。

  • 我刚刚在 Windows 上安装了 Qt SDK,所以我想我拥有所有东西的最新版本(包括 MinGW?)。编译器是 MinGW。Qt 版本是 4.8.1。

  • 我没有使用优化标志,因为我注意到当我以发布模式(使用 Qt Creator)构建时会自动使用它们。在我看来,如果我写类似 QMAKE_CXXFLAGS += -O1 的东西,这只对调试构建有影响。

  • 线程的生命周期等:这很简单。当用户单击“计算”按钮时,会同时启动 2 到 6 个线程(取决于他正在计算的内容),当计算结束时它们将被终止。没什么太花哨的。每个线程都只是进行残酷的计算(实际上除了一个,它每 30 毫秒进行一次(不那么)小“计算,基本上检查错误是否足够小)。

编辑:最新发展和部分答案

以下是一些新的发展,可以为所有这些提供答案:

  • 我想确定速度差异是否真的与线程有关。所以我修改了程序,使计算只使用 1 个线程,这样我们就可以比较“纯 C++ 代码”的性能。事实证明,现在 Windows 只比 Linux 慢一点(大约 15%)。所以我猜想差异的一小部分(但并非不重要)是系统固有的,但最大的部分是由于线程管理

  • 正如评论中所建议的那样(Luca Carlon,谢谢),我尝试使用 Microsoft Visual Studio (MSVC) 的编译器而不是 MinGW 来构建应用程序。令人惊讶的是,计算(包含所有线程和所有内容)现在“仅”比 Linux 慢 20% 到 50%!我想我会继续前进并对此感到满意。我注意到奇怪的是,“纯 C++”计算(只有一个线程)现在甚至更慢(比使用 MinGW),这必须解释整体差异。据我所知,MinGW 比 MSVC 稍微好一点,只是它处理线程的方式像个白痴

所以,我想要么我可以做一些事情来让 MinGW(理想情况下我宁愿使用它而不是 MSVC)更好地处理线程,或者它不能。我会很惊讶,它怎么可能不为人所知和记录在案?尽管我想我应该小心不要太快得出结论,但我只在一台计算机上比较了东西(目前)。

4

5 回答 5

4

另一种选择可能是:在 linux 上,qt 刚刚加载,这可能会发生,即如果您使用 KDE,而在 Windows 中必须加载库,这样会减慢计算时间。要检查有多少库加载浪费了您的应用程序,您可以使用纯 C++ 代码编写一个虚拟测试。

于 2012-10-15T09:59:20.247 回答
0

我听说过一种情况,如果你做错了,Windows 写入文件的速度会非常慢。(这与 Qt 无关。)

这种情况下的问题是,开发人员使用了 SQLite 数据库,编写了大约 10000 个数据集,并且COMMIT在每次插入后都执行了 SQL。这导致 Windows 每次都将整个 DB 文件写入磁盘,而 Linux 只会更新 RAM 中文件系统 inode 的缓冲版本。在这种情况下,速度差异甚至更糟:Linux 上为 1 秒,而 Windows 上为 1 分钟。(在他将 SQLite 更改为最后只提交一次之后,在 Windows 上也是 1 秒。)

因此,如果您要将计算结果写入磁盘,您可能需要检查您是否正在调用fsync()fflush()过于频繁。如果您的编写代码来自库,您可以使用strace它(仅限 Linux,但应该给您一个基本的想法)。

于 2012-10-15T12:11:11.240 回答
0

您可能会因互斥体在 Windows 和 Linux 上的运行方式而遇到性能差异。

每次在锁定时发生资源争用时,Windows 上的纯互斥代码可以等待 15 毫秒。在 Windows 上执行更好的同步机制是关键部分。在大多数情况下,它不会遇到常规互斥锁所经历的锁定惩罚。

我发现在 Linux 上,常规互斥锁的性能与 Windows 上的关键部分相同。

于 2012-10-18T21:45:45.717 回答
0

可能是内存分配器,尝试使用Google 的jemalloctcmalloc。Glibc 的 ptmalloc3 明显优于 MSVC 的 crt 中旧的硬壳分配器。Microsoft 的类似选项是并发 CRT,但您不能简单地将其作为替代品放入。

于 2012-10-18T22:45:53.697 回答
0

我注意到我的电脑上的行为完全相同。我正在运行 Windows 7(64 位)、Ubuntu(64 位)和 OSX(Lion 64 位),我的程序比较了 2 个 XML 文件(每个文件超过 60Mb)。它也使用多线程(2个线程):

-Windows : 40sec

-Linux : 14sec (!!!)

-OSX : 22sec.

我使用个人线程类(而不是 Qt 类),它在 linux/OSX 上使用“pthread”,在 Windows 上使用“threads”。我使用 Qt/mingw 编译器,因为我需要来自 Qt 的 XML 类。

我发现(目前)没有办法让 3 个操作系统具有类似的性能......但我希望我会!

我认为另一个原因可能是内存:我的程序使用了大约 500Mb 的 RAM。所以我认为 Unix 管理得最好,因为在单线程中,Windows 正好慢 1.89 倍,我不认为 Linux 可以慢 2 倍以上!

于 2013-03-19T11:31:33.717 回答