就地标准化向量的最简单方法是
int n = 3;
float v[3] = {1, 2, 3};
cblas_sscal(n, 1.0 / cblas_snrm2(n, v, 1), v, 1);
你需要
#include <cblas.h>
或者
#include <vblas.h>
(或两者)。请注意,当它们对向量进行操作时,其中一些函数位于“矩阵”部分。
如果您想使用 vDSP 函数,请参阅矢量标量除法部分。您可以做几件事:
vDSP_dotpr()
, sqrt()
, 和vDSP_vsdiv()
vDSP_dotpr()
, vrsqrte_f32()
, and vDSP_vsmul()
(vrsqrte_f32()
是内置的 NEON GCC,所以你需要检查你正在为 armv7 编译)。
vDSP_rmsqv()
, 乘以sqrt(n)
, 和vDSP_vsdiv()
没有向量归一化函数的原因是因为 vDSP 中的“向量”意味着“一次有很多东西”(最多大约4096
/ 8192
),并且必然是线性代数中的“向量”。标准化一个元素向量是毫无意义的1024
,一个快速标准化一个3
元素向量的函数不会让你的应用程序明显更快,这就是为什么没有。
vDSP 的预期用途更像是规范化1024
2
- 或 -3
元素向量。我可以找到几种方法来做到这一点:
- 用于
vDSP_vdist()
获取长度向量,后跟vDSP_vdiv()
. vDSP_vdist()
但是,对于长度大于 2 的向量,您必须多次使用。
- 用于
vDSP_vsq()
对所有输入求平方,vDSP_vadd()
多次将所有输入相加,相当于vDSP_vsqrt()
or vDSP_vrsqrt()
, and vDSP_vmul()
orvDSP_vdiv()
视情况而定。vDSP_vsqrt()
写出or的等价物应该不会太难vDSP_vrsqrt()
。
- 假装您的输入是复杂向量的各种方法。不可能更快。
当然,如果你没有要归一化的 1024 个向量,请不要使事情过于复杂。
笔记:
- 我不使用“2-vector”和“3-vector”来避免与相对论中的“4-vector”混淆。
- n的一个不错的选择是几乎填满您的 L1 数据缓存。这并不难;它们已经相对固定在
32K
大约十年或更长时间(它们可能在超线程 CPU 中的虚拟内核之间共享,而一些较旧/更便宜的处理器可能有 16K),所以你应该做的最多的是8192
在原地操作浮动。您可能希望减少一些堆栈空间,如果您正在执行多个顺序操作,您可能希望将其全部保存在缓存中;1024
或者2048
看起来很明智,再多一点可能会导致收益递减。如果您关心,请测量性能...