c++ - 使用自动生成的 C 代码对大型 C++ dll 的性能损失

Question

我正在开发一款需要调用一系列优化求解器的软件。每个求解器都是一段自动生成的 C 代码，包含数千行代码。我使用了 200 个这样的求解器，仅在要解决的优化问题的大小上有所不同。

总而言之，这些自动生成的求解器产生大约 180MB 的 C 代码，我extern "C"{ /*200 solvers' headers*/ }在 Visual Studio 2008 中使用语法将其编译为 C++。编译所有这些非常慢（使用“最大速度 /O2”优化标志，大约需要 8 小时）。出于这个原因，我认为将求解器编译成单个 DLL 是一个好主意，然后我可以从一个单独的软件中调用它（这将有一个合理的编译时间，并允许我抽象出所有这些 extern “ C”的东西来自更高级别的代码）。编译后的 DLL 大约为 37MB。

问题是当使用 DLL 执行这些求解器之一时，执行需要大约 30 毫秒。如果我只将单个求解器编译成一个 DLL，并从同一个程序中调用它，则执行速度大约快 100 倍（<1ms）。为什么是这样？我可以绕过它吗？

DLL 如下所示。每个求解器使用相同的结构（即它们具有相同的成员变量），但它们具有不同的名称，因此都是类型转换。

extern "C"{
#include "../Generated/include/optim_001.h"
#include "../Generated/include/optim_002.h"
/*etc.*/
#include "../Generated/include/optim_200.h"
}

namespace InterceptionTrajectorySolver
{

__declspec(dllexport) InterceptionTrajectoryExitFlag SolveIntercept(unsigned numSteps, InputParams params, double* optimSoln, OutputInfo* infoOut)
{
  int exitFlag;

  switch(numSteps)
  {
  case   1:
    exitFlag = optim_001_solve((optim_001_params*) &params, (optim_001_output*) optimSoln, (optim_001_info*) &infoOut);
    break;
  case   2:
    exitFlag = optim_002_solve((optim_002_params*) &params, (optim_002_output*) optimSoln, (optim_002_info*) &infoOut);
    break;
  /*
    ...
    etc.
    ...
  */
  case   200:
    exitFlag = optim_200_solve((optim_200_params*) &params, (optim_200_output*) optimSoln, (optim_200_info*) &infoOut);
    break;
  }

  return exitFlag;
};

};

score 1 · Accepted Answer

我不知道您的代码是否已内联到示例中的每个案例部分。如果您的函数是内联函数，并且您将它们全部放在一个函数中，那么它会慢得多，因为代码是在虚拟内存中布局的，在执行代码时这将需要 CPU 大量跳转。如果不是全部内联，那么这些建议可能会有所帮助。

您的解决方案可能会改进...

A）1）将项目分成200个单独的dll。然后使用 .bat 文件或类似文件进行构建。2）在每个dll中创建名为“MyEntryPoint”的导出功能，然后根据需要使用动态链接加载库。这将相当于一个繁忙的音乐程序，加载了许多小的 dll 插件。使用 GetProcAddress 获取指向 EntryPoint 的函数指针。

或者...

B) 将每个解决方案构建为单独的 .lib 文件。然后，这将根据解决方案非常快速地编译，然后您可以将它们全部链接在一起。构建一个指向所有函数的函数指针数组，然后通过查找来调用它。

结果 = SolveInterceptWhichStep;

将所有库组合成一个大库不应花费八小时。如果需要那么长时间，那么你做的事情非常错误。

和...

尝试将代码放入不同的实际 .cpp 文件中。如果它们都在不同的单元中，也许那个特定的编译器会做得更好……然后，一旦每个单元被编译，如果你不改变任何东西，它就会保持编译状态。

score 0 · Accepted Answer

确保测量和平均多次调用优化器的时间，因为在第一次调用之前设置可能会有很大的开销。

然后还要检查 200 分支条件语句（您的开关）对您的性能有何影响！尝试消除该开关以进行测试，在测试项目中仅调用一个求解器，但在 DLL 中链接所有求解器。您仍然看到性能缓慢吗？

score 0 · Accepted Answer

我假设您生成代码的原因是为了更好的运行时性能，以及更好的正确性。我做同样的事情。

我建议您尝试这种技术来找出运行时性能问题是什么。

如果您看到 100:1 的性能差异，这意味着每次您中断它并查看程序的状态时，您将有 99% 的机会看到问题所在。

就构建时间而言，确保将其模块化是有意义的。这些都不会对运行时间产生太大影响，除非这意味着您正在执行疯狂的 I/O。

c++ - 使用自动生成的 C 代码对大型 C++ dll 的性能损失

3 回答 3

Related

Reference