c++ - 使用 Eigen 的性能比使用我自己的类更差

Question

几周前，我问了一个关于矩阵乘法性能的问题。

有人告诉我，为了提高程序的性能，我应该使用一些专门的矩阵类而不是我自己的类。

StackOverflow 用户推荐：

uBLAS
本征
布拉斯

起初我想使用 uBLAS 但是阅读文档发现这个库不支持矩阵矩阵乘法。

毕竟我决定使用 EIGEN 库。所以我把我的矩阵类Eigen::MatrixXd换成了——但事实证明，现在我的应用程序比以前运行得更慢了。使用 EIGEN 之前的时间是 68 秒，在将我的矩阵类交换为 EIGEN 矩阵程序之后运行 87 秒。

花费最多时间的程序部分看起来像这样

TemplateClusterBase* TemplateClusterBase::TransformTemplateOne( vector<Eigen::MatrixXd*>& pointVector, Eigen::MatrixXd& rotation ,Eigen::MatrixXd& scale,Eigen::MatrixXd& translation )
{   
    for (int i=0;i<pointVector.size();i++ )
    {
        //Eigen::MatrixXd outcome =
        Eigen::MatrixXd outcome = (rotation*scale)* (*pointVector[i])  + translation;
        //delete  prototypePointVector[i];      // ((rotation*scale)* (*prototypePointVector[i])  + translation).ConvertToPoint();
        MatrixHelper::SetX(*prototypePointVector[i],MatrixHelper::GetX(outcome));
        MatrixHelper::SetY(*prototypePointVector[i],MatrixHelper::GetY(outcome));
        //assosiatedPointIndexVector[i]    = prototypePointVector[i]->associatedTemplateIndex = i;
    }

    return this;
}

和

Eigen::MatrixXd AlgorithmPointBased::UpdateTranslationMatrix( int clusterIndex )
{
    double membershipSum = 0,outcome = 0;
    double currentPower = 0;
    Eigen::MatrixXd outcomePoint = Eigen::MatrixXd(2,1);
    outcomePoint << 0,0;
    Eigen::MatrixXd templatePoint;
    for (int i=0;i< imageDataVector.size();i++)
    {
        currentPower =0; 
        membershipSum += currentPower = pow(membershipMatrix[clusterIndex][i],m);
        outcomePoint.noalias() +=  (*imageDataVector[i] - (prototypeVector[clusterIndex]->rotationMatrix*prototypeVector[clusterIndex]->scalingMatrix* ( *templateCluster->templatePointVector[prototypeVector[clusterIndex]->assosiatedPointIndexVector[i]]) ))*currentPower ;
    }

    outcomePoint.noalias() = outcomePoint/=membershipSum;
    return outcomePoint; //.ConvertToMatrix();
}

如您所见，这些函数执行了大量的矩阵运算。这就是为什么我认为使用 Eigen 会加快我的应用程序的速度。不幸的是（正如我上面提到的），该程序运行速度较慢。

有没有办法加快这些功能？

也许如果我使用 DirectX 矩阵运算，我会获得更好的性能？？（但是我有一台带集成显卡的笔记本电脑）。

score 12 · Accepted Answer

确保打开编译器优化（例如 gcc 上至少 -O2）。Eigen 是大量模板化的，如果您不打开优化，将不会很好地执行。

score 12 · Accepted Answer

如果您使用 Eigen 的MatrixXd类型，则它们是动态调整大小的。使用固定大小的类型（例如.Matrix4dVector4d

另外，请确保您正在编译，以便代码可以矢量化；请参阅相关的 Eigen 文档。

重新考虑使用 Direct3D 扩展库的东西（D3DXMATRIX 等）：图形几何（4x4 变换等）没问题（如果有点过时），但它肯定不是 GPU 加速的（我认为只是好的旧 SSE）。另外，请注意它只是浮点精度（您似乎设置为使用双精度）。我个人更喜欢使用 Eigen，除非我实际上是在编写 Direct3D 应用程序。

score 9 · Accepted Answer

您应该先分析然后优化算法，然后再优化实现。特别是，发布的代码效率很低：

for (int i=0;i<pointVector.size();i++ )
{
   Eigen::MatrixXd outcome = (rotation*scale)* (*pointVector[i])  + translation;

我不知道这个库，所以我什至不会尝试猜测您正在创建的不必要临时文件的数量，而是一个简单的重构：

Eigen::MatrixXd tmp = rotation*scale;
for (int i=0;i<pointVector.size();i++ )
{
   Eigen::MatrixXd outcome = tmp*(*pointVector[i])  + translation;

可以为您节省大量昂贵的乘法（同样，可能是立即丢弃的新临时矩阵。

score 9 · Accepted Answer

您使用的是哪个版本的 Eigen？他们最近发布了 3.0.1，它应该比 2.x 更快。另外，请确保您使用编译器选项。例如，确保在 Visual Studio 中使用 SSE：

C/C++ --> 代码生成 --> 启用增强指令集

score 2 · Accepted Answer

几点。

当该产品每次迭代都具有相同的值时，为什么要在循环内乘以旋转*比例？那是很多浪费的努力。
您正在使用动态大小的矩阵而不是固定大小的矩阵。其他人已经提到了这一点，你说你剃掉了 2 秒。
您将参数作为指向矩阵的指针向量传递。这增加了一个额外的指针间接并破坏了数据局部性的任何保证，这将导致缓存性能不佳。
我希望这不是侮辱，但是您是在 Release 还是 Debug 中编译？Eigen 在调试版本中非常慢，因为它使用了许多在发布后优化但仍处于调试状态的琐碎模板化函数。

查看您的代码，我不愿将性能问题归咎于 Eigen。但是，大多数线性代数库（包括 Eigen）并不是真正为您的大量微小矩阵的用例而设计的。一般来说，Eigen 会更好地针对 100x100 或更大的矩阵进行优化。您最好使用自己的矩阵类或 DirectX 数学辅助类。DirectX 数学课程完全独立于您的视频卡。

score 0 · Accepted Answer

回顾你以前的帖子和那里的代码，我的建议是使用你的旧代码，但通过移动东西来提高它的效率。我在上一个问题上发布，以保持答案分开。

c++ - 使用 Eigen 的性能比使用我自己的类更差

6 回答 6

Related

Reference