令我惊讶的是,我无法在网络上跟踪任何基于 cilkplus 数组表示法的 BLAS 实现。这很奇怪,因为 cilkplus 应该确保在当今的多核工作站 CPU 上(超过)体面的性能,再加上 BLAS 算法的非常富有表现力和紧凑的表示。更奇怪的是,考虑到 BLAS/LAPACK 是密集矩阵计算的事实标准(至少,作为规范)。
我知道还有其他更新和复杂的库试图改进/扩展 blas/lapack,例如,我查看了 eigen 和 flens,但是拥有“标准”blas 的 cilkplus 版本仍然会很好执行。
这是否取决于 cilkplus 的非常有限的传播?