3

我将 32 位 Delphi BASM 代码移植到 64 位 FPC(Win64 目标操作系统),想知道为什么下一条指令不能在 64 位 FPC 中编译:

{$IFDEF FPC}
  {$ASMMODE INTEL}
{$ENDIF}

procedure DoesNotCompile;
asm
      LEA   ECX,[ECX + ESI + $265E5A51]
end;

// Error: Asm: 16 or 32 Bit references not supported

可能的解决方法是:

procedure Compiles1;
asm
      ADD   ECX,ESI
      ADD   ECX,$265E5A51
end;

procedure Compiles2;
asm
      LEA   ECX,[RCX + RSI + $265E5A51]
end;

我只是不明白LEAWin64 目标中的 32 位指令有什么问题(它在 32 位 Delphi 中编译正常,因此它是正确的 CPU 指令)。


优化备注:

64位FPC 2.6.2编译的下一段代码

  {$MODE DELPHI}
  {$ASMMODE INTEL}

procedure Test;
asm
        LEA     ECX,[RCX + RSI + $265E5A51]
        NOP
        LEA     RCX,[RCX + RSI + $265E5A51]
        NOP
        ADD     ECX,$265E5A51
        ADD     ECX,ESI
        NOP
end;

生成下一个汇编器输出:

00000000004013F0 4883ec08                 sub    $0x8,%rsp
                         project1.lpr:10  LEA     ECX,[RCX + RSI + $265E5A51]
00000000004013F4 8d8c31515a5e26           lea    0x265e5a51(%rcx,%rsi,1),%ecx
                         project1.lpr:11  NOP
00000000004013FB 90                       nop
                         project1.lpr:12  LEA     RCX,[RCX + RSI + $265E5A51]
00000000004013FC 488d8c31515a5e26         lea    0x265e5a51(%rcx,%rsi,1),%rcx
                         project1.lpr:13  NOP
0000000000401404 90                       nop
                         project1.lpr:14  ADD     ECX,$265E5A51
0000000000401405 81c1515a5e26             add    $0x265e5a51,%ecx
                         project1.lpr:15  ADD     ECX,ESI
000000000040140B 01f1                     add    %esi,%ecx
                         project1.lpr:16  NOP
000000000040140D 90                       nop
                         project1.lpr:17  end;
000000000040140E 4883c408                 add    $0x8,%rsp

获胜者是(7 个字节长):

LEA     ECX,[RCX + RSI + $265E5A51]

所有 3 个替代方案(包括LEA ECX,[ECX + ESI + $265E5A51]不通过 64 位 FPC 编译的)都是 8 个字节长。

不确定获胜者的速度最好。

4

2 回答 2

5

我认为这是 FPC 汇编程序中的错误。您提供的 asm 代码是有效的,并且在 64 位模式下,将 LEA 与 32 位寄存器一起使用是完全有效的,就像您所做的那样。英特尔处理器文档对此事很清楚。Delphi 64 位内联汇编器接受此代码。

要解决此问题,您需要手动组装代码:

DQ    $265e5a510e8c8d67

在 Delphi CPU 视图中,结果如下:

项目 1.dpr.12:DQ $265e5a510e8c8d67
0000000000424160 678D8C0E515A5E26 lea ecx,[esi+ecx+$265e5a51]

我执行了一个非常简单的基准测试来比较 32 位和 64 位操作数的使用,以及使用两个 ADD 的版本。代码如下所示:

{$APPTYPE CONSOLE}

uses
  System.Diagnostics;

function BenchWithTwoAdds: Integer;
asm
    MOV   EDX,ESI
    XOR   EAX,EAX
    MOV   ESI,$98C34
    MOV   ECX,$ffffffff
@loop:
    ADD   EAX,ESI
    ADD   EAX,$265E5A51
    DEC   ECX
    CMP   ECX,0
    JNZ   @loop
    MOV   ESI,EDX
end;

function BenchWith32bitOperands: Integer;
asm
    MOV   EDX,ESI
    XOR   EAX,EAX
    MOV   ESI,$98C34
    MOV   ECX,$ffffffff
@loop:
    LEA   EAX,[EAX + ESI + $265E5A51]
    DEC   ECX
    CMP   ECX,0
    JNZ   @loop
    MOV   ESI,EDX
end;

{$IFDEF CPUX64}
function BenchWith64bitOperands: Integer;
asm
    MOV   EDX,ESI
    XOR   EAX,EAX
    MOV   ESI,$98C34
    MOV   ECX,$ffffffff
@loop:
    LEA   EAX,[RAX + RSI + $265E5A51]
    DEC   ECX
    CMP   ECX,0
    JNZ   @loop
    MOV   ESI,EDX
end;
{$ENDIF}

var
  Stopwatch: TStopwatch;

begin
{$IFDEF CPUX64}
  Writeln('64 bit');
{$ELSE}
  Writeln('32 bit');
{$ENDIF}
  Writeln;

  Writeln('BenchWithTwoAdds');
  Stopwatch := TStopwatch.StartNew;
  Writeln('Value = ', BenchWithTwoAdds);
  Writeln('Elapsed time = ', Stopwatch.ElapsedMilliseconds);
  Writeln;

  Writeln('BenchWith32bitOperands');
  Stopwatch := TStopwatch.StartNew;
  Writeln('Value = ', BenchWith32bitOperands);
  Writeln('Elapsed time = ', Stopwatch.ElapsedMilliseconds);
  Writeln;

{$IFDEF CPUX64}
  Writeln('BenchWith64bitOperands');
  Stopwatch := TStopwatch.StartNew;
  Writeln('Value = ', BenchWith64bitOperands);
  Writeln('Elapsed time = ', Stopwatch.ElapsedMilliseconds);
{$ENDIF}

  Readln;
end.

我的 Intel i5-2300 上的输出:

32 位

BenchWithTwoAdds
值 = -644343429
经过时间 = 2615

带 32 位操作数的 Bench
值 = -644343429
经过时间 = 3915

----------------------

64 位

BenchWithTwoAdds
值 = -644343429
经过时间 = 2612

带 32 位操作数的 Bench
值 = -644343429
经过时间 = 3917

带 64 位操作数的 Bench
值 = -644343429
经过时间 = 3918

正如您所看到的,基于此的任何 LEA 选项之间都没有什么可供选择的。它们的时间差异完全在测量的可变性范围内。但是,使用ADD两次的变体胜出。

来自不同机器的一些不同结果。这是 Xeon E5530 上的输出:

64 位

BenchWithTwoAdds
值 = -644343429
经过时间 = 3434

带 32 位操作数的 Bench
值 = -644343429
经过时间 = 3295

带 64 位操作数的 Bench
值 = -644343429
经过时间 = 3279

在 Xeon E5-4640 v2 上:

64 位

BenchWithTwoAdds
值 = -644343429
经过时间 = 4102

带 32 位操作数的 Bench
值 = -644343429
经过时间 = 5868

带 64 位操作数的 Bench
值 = -644343429
经过时间 = 5868
于 2014-10-21T12:15:22.863 回答
2

与操作数本身的大小不同,内存操作数的组件具有默认大小。在 64 位模式下,它是 64 位,这意味着您应该将 64 位寄存器用于内存操作数的组件,除非您有特殊原因。

x86 ISA 确实允许使用前缀 byte 更改给定指令的大小0x67,但您可能不想这样做(显然您的汇编程序甚至不支持它)。

为了更清楚地区分操作数和操作数组件:

lea eax, dword ptr [rax + rdx * 4]

    ^^^  ^^^^^ ^^^                   operands: can be any size you like
                    ^^^   ^^^        operand components: usually 64-bit
于 2014-10-21T12:07:28.413 回答