我有一个算法可以一遍又一遍地执行线性代数的树步骤,
loop{
first I multiply a Vector and a Matrix,
Second I calculate the sum of elements in the Vector
and Thirdly I scale the vector using the sum, making sure the vectors elements scale to one.
}
我正在使用 BLAS 进行操作,这有点快,但它需要对数据进行树运行,每个步骤一个。现在我想知道将这些步骤合并为一个是否会有所收获,只需运行一次数据即可。
有没有人对如何以最佳方式实现这些调用有任何经验,我的矩阵大约是 100*100,向量有 100 个元素。
我认为该向量可以适合 8 个 128 字节 mmx 寄存器。使乘法非常快,有什么想法吗?