我有三个函数a(),它们应该做同样的事情b():c()
typedef float Builtin __attribute__ ((vector_size (16)));
typedef struct {
float values[4];
} Struct;
typedef union {
Builtin b;
Struct s;
} Union;
extern void printv(Builtin);
extern void printv(Union);
extern void printv(Struct);
int a() {
Builtin m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
int b() {
Union m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
int c() {
Struct m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
当我编译这段代码时,我观察到以下行为:
- 当调用所有 4 个浮点数时
printv(),a()正在传递%xmm0. 不会发生对内存的写入。 - 当调用2 个浮点数时
printv(),另外两个b()浮点数被传递。为了完成这 4 个浮点数(.LC0)被加载到内存中并从那里加载到内存中。之后,从内存中的同一位置读取 2 个浮点数,并将其他 2 个浮点数加载 (.LC1) 到.%xmm0%xmm1%xmm2%xmm0%xmm1 - 我对
c()实际做了什么有点迷茫。
为什么a()和b()不同c()?
这是 a() 的汇编输出:
vmovaps .LC0(%rip), %xmm0
call _Z6printvU8__vectorf
b() 的汇编输出:
vmovaps .LC0(%rip), %xmm2
vmovaps %xmm2, (%rsp)
vmovq .LC1(%rip), %xmm1
vmovq (%rsp), %xmm0
call _Z6printv5Union
以及 c() 的汇编输出:
andq $-32, %rsp
subq $32, %rsp
vmovaps .LC0(%rip), %xmm0
vmovaps %xmm0, (%rsp)
vmovq .LC2(%rip), %xmm0
vmovq 8(%rsp), %xmm1
call _Z6printv6Struct
数据:
.section .rodata.cst16,"aM",@progbits,16
.align 16
.LC0:
.long 1065353216
.long 1073741824
.long 1077936128
.long 1082130432
.section .rodata.cst8,"aM",@progbits,8
.align 8
.LC1:
.quad 4647714816524288000
.align 8
.LC2:
.quad 4611686019492741120
四边形4647714816524288000似乎只不过是浮点数3.0和4.0相邻的长字。