2

我正在研究链接到 libgomp 的 OpenMP 程序的执行流程。它使用#pragma omp parallel for. 我已经知道这个结构变成了对GOMP_parallel函数的调用,它的实现如下:

void
GOMP_parallel (void (*fn) (void *), void *data, 
               unsigned num_threads, unsigned int flags)
{
   num_threads = gomp_resolve_num_threads (num_threads, 0);
   gomp_team_start (fn, data, num_threads, flags, gomp_new_team (num_threads));
   fn (data);
   ialias_call (GOMP_parallel_end) ();
}

objdump -d在 libgomp 上执行时,显示GOMP_parallel为:

000000000000bc80 <GOMP_parallel@@GOMP_4.0>:
bc80:   41 55                   push   %r13
bc82:   41 54                   push   %r12
bc84:   41 89 cd                mov    %ecx,%r13d
bc87:   55                      push   %rbp
bc88:   53                      push   %rbx
bc89:   48 89 f5                mov    %rsi,%rbp
bc8c:   48 89 fb                mov    %rdi,%rbx
bc8f:   31 f6                   xor    %esi,%esi
bc91:   89 d7                   mov    %edx,%edi
bc93:   48 83 ec 08             sub    $0x8,%rsp
bc97:   e8 d4 fd ff ff          callq  ba70 <GOMP_ordered_end@@GOMP_1.0+0x70>
bc9c:   41 89 c4                mov    %eax,%r12d
bc9f:   89 c7                   mov    %eax,%edi
bca1:   e8 ca 37 00 00          callq  f470 <omp_in_final@@OMP_3.1+0x2c0>
bca6:   44 89 e9                mov    %r13d,%ecx
bca9:   44 89 e2                mov    %r12d,%edx
bcac:   48 89 ee                mov    %rbp,%rsi
bcaf:   48 89 df                mov    %rbx,%rdi
bcb2:   49 89 c0                mov    %rax,%r8
bcb5:   e8 16 39 00 00          callq  f5d0 <omp_in_final@@OMP_3.1+0x420>
bcba:   48 89 ef                mov    %rbp,%rdi
bcbd:   ff d3                   callq  *%rbx
bcbf:   48 83 c4 08             add    $0x8,%rsp
bcc3:   5b                      pop    %rbx
bcc4:   5d                      pop    %rbp
bcc5:   41 5c                   pop    %r12
bcc7:   41 5d                   pop    %r13
bcc9:   e9 32 ff ff ff          jmpq   bc00 <GOMP_parallel_end@@GOMP_1.0>
bcce:   66 90                   xchg   %ax,%ax

首先,例如,GOMP_ordered_end在源代码中没有任何调用。GOMP_parallel其次,该功能包括:

void
GOMP_ordered_end (void)
{
}

根据 objdump 输出,此函数从 开始ba00并在 结束bbbd。一个空的函数里怎么会有这么多代码?顺便说一句,libgomp 的源代码中有注释说它应该只在使用 ORDERED 构造时出现(顾名思义),这不是我测试的情况。

最后,我主要关心的是:为什么源代码与反汇编有这么大的不同?例如,为什么在程序集中没有提及gomp_team_start

系统有gcc版本5.4.0

4

1 回答 1

3

根据 objdump 的输出,这个函数从 ba00 开始,在 bbbd 结束。一个空的函数里怎么会有这么多代码?

该函数本身很小,但 GCC 只是使用了一些额外的字节来对齐下一个函数并存储一些静态数据(可能被此文件中的其他函数使用)。这是我在本地看到的ordered.o

00000000000003b0 <GOMP_ordered_end>:
 3b0:   f3 c3                   repz retq
 3b2:   66 66 66 66 66 2e 0f    data32 data32 data32 data32 nopw %cs:0x0(%rax,%rax,1)
 3b9:   1f 84 00 00 00 00 00

首先,例如,在 GOMP_parallel 的源代码中没有对 GOMP_ordered_end 的任何调用。

不要被GOMP_ordered_end@@GOMP_1.0+0x70汇编代码中的标记分心。它只是说这调用了一些本地库函数(objdump 没有找到任何符号信息),它恰好位于GOMP_ordered_end. 这是最有可能gomp_resolve_num_threads的。

例如,为什么在程序集中没有提到 gomp_team_start ?

嗯,这看起来很像:

bcb5:   e8 16 39 00 00          callq  f5d0 <omp_in_final@@OMP_3.1+0x420>
于 2017-10-18T08:57:02.977 回答