我指的是英特尔关于 Xeon Phi 指令集的手册,但无法理解分散/收集指令的工作原理。
假设我有以下双精度向量:
A-> |b4|a4|b3|a3|b2|a2|b1|a1|
是否可以创建 4 个向量,如下所示:
V1->|b1|a1|b1|a1|b1|a1|b1|a1|
V2->|b2|a2|b2|a2|b2|a2|b2|a2|
V3->|b3|a3|b3|a3|b3|a3|b3|a3|
V4->|b4|a4|b4|a4|b4|a4|b4|a4|
使用这些说明?有没有其他方法可以实现这一目标?