大多数BLAS 1 级 API都可以使用 Fortran 9x+ 矢量化分配和内在过程直接编写。
假设您使用的是现代优化编译器(如Intel Fortran)和正确的特定于目标的编译器优化选项,那么使用 BLAS 1 级过程是否有任何性能优势,例如来自英特尔 MKL或其他快速 BLAS 实施?
如果有,当这些好处出现时,典型的向量大小是多少?
大多数BLAS 1 级 API都可以使用 Fortran 9x+ 矢量化分配和内在过程直接编写。
假设您使用的是现代优化编译器(如Intel Fortran)和正确的特定于目标的编译器优化选项,那么使用 BLAS 1 级过程是否有任何性能优势,例如来自英特尔 MKL或其他快速 BLAS 实施?
如果有,当这些好处出现时,典型的向量大小是多少?