我有三个函数a()
,它们应该做同样的事情b()
:c()
typedef float Builtin __attribute__ ((vector_size (16)));
typedef struct {
float values[4];
} Struct;
typedef union {
Builtin b;
Struct s;
} Union;
extern void printv(Builtin);
extern void printv(Union);
extern void printv(Struct);
int a() {
Builtin m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
int b() {
Union m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
int c() {
Struct m = { 1.0, 2.0, 3.0, 4.0 };
printv(m);
}
当我编译这段代码时,我观察到以下行为:
- 当调用所有 4 个浮点数时
printv()
,a()
正在传递%xmm0
. 不会发生对内存的写入。 - 当调用2 个浮点数时
printv()
,另外两个b()
浮点数被传递。为了完成这 4 个浮点数(.LC0)被加载到内存中并从那里加载到内存中。之后,从内存中的同一位置读取 2 个浮点数,并将其他 2 个浮点数加载 (.LC1) 到.%xmm0
%xmm1
%xmm2
%xmm0
%xmm1
- 我对
c()
实际做了什么有点迷茫。
为什么a()
和b()
不同c()
?
这是 a() 的汇编输出:
vmovaps .LC0(%rip), %xmm0
call _Z6printvU8__vectorf
b() 的汇编输出:
vmovaps .LC0(%rip), %xmm2
vmovaps %xmm2, (%rsp)
vmovq .LC1(%rip), %xmm1
vmovq (%rsp), %xmm0
call _Z6printv5Union
以及 c() 的汇编输出:
andq $-32, %rsp
subq $32, %rsp
vmovaps .LC0(%rip), %xmm0
vmovaps %xmm0, (%rsp)
vmovq .LC2(%rip), %xmm0
vmovq 8(%rsp), %xmm1
call _Z6printv6Struct
数据:
.section .rodata.cst16,"aM",@progbits,16
.align 16
.LC0:
.long 1065353216
.long 1073741824
.long 1077936128
.long 1082130432
.section .rodata.cst8,"aM",@progbits,8
.align 8
.LC1:
.quad 4647714816524288000
.align 8
.LC2:
.quad 4611686019492741120
四边形4647714816524288000
似乎只不过是浮点数3.0
和4.0
相邻的长字。