delphi - 英特尔 x86 汇编优化技术，用于将 8 位扩展为 0 或 1 的 8 个布尔字节

Question

我正在学习汇编程序很长一段时间，我正在尝试重写一些简单的程序\函数来查看性能优势（如果有的话）。我的主要开发工具是 Delphi 2007，第一个示例将使用该语言，但它们也可以轻松翻译成其他语言。

问题陈述为：

我们给出了一个无符号字节值，其中八位中的每一位代表屏幕一行中的一个像素。每个单个像素可以是实心 (1) 或透明 (0)。换句话说，我们将 8 个像素打包在一个字节值中。我想以最年轻的像素（位）将落在数组的最低索引下的方式将这些像素解压缩到一个八字节数组中，依此类推。这是一个例子：

One byte value -----------> eight byte array

10011011 -----------------> [1][1][0][1][1][0][0][1]

Array index number ------->  0  1  2  3  4  5  6  7

下面我介绍五种解决问题的方法。接下来我将展示他们的时间比较以及我是如何测量这些时间的。

我的问题包括两部分：

1.

我要求您详细回答有关方法DecodePixels4a和DecodePixels4b. 为什么方法4b比4a?

例如，如果由于我的代码未正确对齐而导致速度较慢，那么请告诉我给定方法中的哪些指令可以更好地对齐，以及如何做到这一点以不破坏该方法。

我想看看理论背后的真实例子。请记住，我正在学习汇编，我想从您的答案中获得知识，这使我将来能够编写更好的优化代码。

2.

你能写出比更快的例程DecodePixels4a吗？如果是这样，请展示它并描述您已采取的优化步骤。更快的例程是指在此处介绍的所有例程中在您的测试环境中运行时间最短的例程。

允许使用所有英特尔系列处理器以及与之兼容的处理器。

下面你会发现我写的例程：

procedure DecodePixels1(EncPixels: Byte; var DecPixels: TDecodedPixels);
var
  i3: Integer;
begin
  DecPixels[0] := EncPixels and $01;
  for i3 := 1 to 7 do
  begin
    EncPixels := EncPixels shr 1;
    DecPixels[i3] := EncPixels and $01;
    //DecPixels[i3] := (EncPixels shr i3) and $01;  //this is even slower if you replace above 2 lines with it
  end;
end;


//Lets unroll the loop and see if it will be faster.
procedure DecodePixels2(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  DecPixels[0] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[1] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[2] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[3] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[4] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[5] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[6] := EncPixels and $01;
  EncPixels := EncPixels shr 1;
  DecPixels[7] := EncPixels and $01;
end;


procedure DecodePixels3(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  asm
    push eax;
    push ebx;
    push ecx;
    mov bl, al;
    and bl, $01;
    mov [edx], bl;
    mov ecx, $00;
@@Decode:
    inc ecx;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + ecx], bl;
    cmp ecx, $07;
    jnz @@Decode;
    pop ecx;
    pop ebx;
    pop eax;
  end;
end;


//Unrolled assembly loop
procedure DecodePixels4a(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  asm
    push eax;
    push ebx;
    mov bl, al;
    and bl, $01;
    mov  [edx], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $01], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $02], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $03], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $04], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $05], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $06], bl;
    shr al, $01;
    mov bl, al;
    and bl, $01;
    mov [edx + $07], bl;
    pop ebx;
    pop eax;
  end;
end;


// it differs compared to 4a only in switching two instructions (but seven times)
procedure DecodePixels4b(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  asm
    push eax;
    push ebx;
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx], bl;        //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $01], bl;  //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $02], bl;  //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $03], bl;  //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $04], bl;  //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $05], bl;  //
    mov bl, al;
    and bl, $01;
    shr al, $01;          //
    mov [edx + $06], bl;  //
    mov bl, al;
    and bl, $01;
    mov [edx + $07], bl;
    pop ebx;
    pop eax;
  end;
end;

这是我如何测试它们：

program Test;

{$APPTYPE CONSOLE}

uses
  SysUtils, Windows;

type
  TDecodedPixels = array[0..7] of Byte;
var
  Pixels: TDecodedPixels;
  Freq, TimeStart, TimeEnd :Int64;
  Time1, Time2, Time3, Time4a, Time4b: Extended;
  i, i2: Integer;

begin
  if QueryPerformanceFrequency(Freq) then
  begin
    for i2 := 1 to 100 do
    begin
      QueryPerformanceCounter(TimeStart);
      for i := 1 to 100000 do
        DecodePixels1(155, Pixels);
      QueryPerformanceCounter(TimeEnd);
      Time1 := Time1 + ((TimeEnd - TimeStart) / Freq * 1000);

      QueryPerformanceCounter(TimeStart);
      for i := 1 to 100000 do
        DecodePixels2(155, Pixels);
      QueryPerformanceCounter(TimeEnd);
      Time2 := Time2 + ((TimeEnd - TimeStart) / Freq * 1000);

      QueryPerformanceCounter(TimeStart);
      for i := 1 to 100000 do
        DecodePixels3(155, Pixels);
      QueryPerformanceCounter(TimeEnd);
      Time3 := Time3 + ((TimeEnd - TimeStart) / Freq * 1000);

      QueryPerformanceCounter(TimeStart);
      for i := 1 to 100000 do
        DecodePixels4a(155, Pixels);
      QueryPerformanceCounter(TimeEnd);
      Time4a := Time4a + ((TimeEnd - TimeStart) / Freq * 1000);

      QueryPerformanceCounter(TimeStart);
      for i := 1 to 100000 do
        DecodePixels4b(155, Pixels);
      QueryPerformanceCounter(TimeEnd);
      Time4b := Time4b + ((TimeEnd - TimeStart) / Freq * 1000);

    end;
    Writeln('Time1 : ' + FloatToStr(Time1 / 100) + ' ms.    <- Delphi loop.');
    Writeln('Time2 : ' + FloatToStr(Time2 / 100) + ' ms.    <- Delphi unrolled loop.');
    Writeln('Time3 : ' + FloatToStr(Time3/ 100) + ' ms.    <- BASM loop.');
    Writeln('Time4a : ' + FloatToStr(Time4a / 100) + ' ms.    <- BASM unrolled loop.');
    Writeln('Time4b : ' + FloatToStr(Time4b / 100) + ' ms.    <- BASM unrolled loop instruction switch.');
  end;
  Readln;
end.

以下是我的机器（Win32 XP 上的 Intel® Pentium® E2180）的结果：

Time1  : 1,68443549919493 ms.     <- Delphi loop.
Time2  : 1,33773024572211 ms.     <- Delphi unrolled loop.
Time3  : 1,37015271374424 ms.     <- BASM loop.
Time4a : 0,822916962526627 ms.    <- BASM unrolled loop.
Time4b : 0,862914462301607 ms.    <- BASM unrolled loop instruction switch.

结果非常稳定 - 我所做的每次测试之间的时间变化只有几个百分点。这总是正确的：Time1 > Time3 > Time 2 > Time4b > Time4a

所以我认为 Time4a 和 Time4b 之间的差异取决于方法中的指令切换DecodePixels4b。有时是 4%，有时是 10%，但4b总是慢于4a.

我正在考虑另一种使用 MMX 指令一次将八个字节写入内存的方法，但我无法找到将字节解压到 64 位寄存器中的快速方法。

感谢您的时间。

谢谢你们的宝贵意见。虽然我可以同时回答你们所有人，但不幸的是，与现代 CPU 相比，我只有一个“管道”并且当时只能执行一条指令“回复”;-) 所以，我会尝试总结一些事情在这里并在你的答案下写下额外的评论。

首先，我想说的是，在发布我的问题之前，我想出了 Wouter van Nifterick 提出的解决方案，它实际上比我的汇编代码慢得多。所以我决定不在这里发布该例程，但您可能会看到我在我的循环 Delphi 版本的例程中也采用了相同的方法。它在那里被评论是因为它给了我更糟糕的结果。

这对我来说是个谜。我用 Wouter 和 PhilS 的例程再次运行了我的代码，结果如下：

Time1  : 1,66535493194387 ms.     <- Delphi loop.
Time2  : 1,29115785420688 ms.     <- Delphi unrolled loop.
Time3  : 1,33716934524107 ms.     <- BASM loop.
Time4a : 0,795041753757838 ms.    <- BASM unrolled loop.
Time4b : 0,843520166815013 ms.    <- BASM unrolled loop instruction switch.
Time5  : 1,49457681191307 ms.     <- Wouter van Nifterick, Delphi unrolled
Time6  : 0,400587402866258 ms.    <- PhiS, table lookup Delphi
Time7  : 0,325472442519827 ms.    <- PhiS, table lookup Delphi inline
Time8  : 0,37350491544239 ms.     <- PhiS, table lookup BASM

看看Time5的结果，是不是很奇怪？我想我有不同的 Delphi 版本，因为我生成的汇编代码与 Wouter 提供的不同。

第二次重大修改：

我知道为什么5我的机器上的例行程序变慢了。我在编译器选项中检查了“范围检查”和“溢出检查”。我已经assembler在例程9中添加了指令，看看它是否有帮助。使用这个指令汇编程序似乎与 Delphi 内联变体一样好，甚至稍微好一点。

以下是最终结果：

Time1  : 1,22508325749317 ms.     <- Delphi loop.
Time2  : 1,33004145373084 ms.     <- Delphi unrolled loop.
Time3  : 1,1473583622526 ms.      <- BASM loop.
Time4a : 0,77322594033463 ms.     <- BASM unrolled loop.
Time4b : 0,846033593023372 ms.    <- BASM unrolled loop instruction switch.
Time5  : 0,688689382044384 ms.    <- Wouter van Nifterick, Delphi unrolled
Time6  : 0,503233741036693 ms.    <- PhiS, table lookup Delphi
Time7  : 0,385254722925063 ms.    <- PhiS, table lookup Delphi inline
Time8  : 0,432993919452751 ms.    <- PhiS, table lookup BASM
Time9  : 0,362680491244212 ms.    <- PhiS, table lookup BASM with assembler directive

第三次重大修改：

在@Pascal Cuoq和@j_random_hacker 看来，例程4a之间执行时间的差异是由数据依赖性引起的。但是，基于我所做的进一步测试，我不得不不同意这种观点。4b5

我还发明了4c基于4a. 这里是：

procedure DecodePixels4c(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  asm
    push ebx;
    mov bl, al;
    and bl, 1;
    mov [edx], bl;
    mov bl, al;
    shr bl, 1;
    and bl, 1;
    mov [edx + $01], bl;
    mov bl, al;
    shr bl, 2;
    and bl, 1;
    mov [edx + $02], bl;
    mov bl, al;
    shr bl, 3;
    and bl, 1;
    mov [edx + $03], bl;
    mov bl, al;
    shr bl, 4;
    and bl, 1;
    mov [edx + $04], bl;
    mov bl, al;
    shr bl, 5;
    and bl, 1;
    mov [edx + $05], bl;
    mov bl, al;
    shr bl, 6;
    and bl, 1;
    mov [edx + $06], bl;
    shr al, 7;
    and al, 1;
    mov [edx + $07], al;
    pop ebx;
  end;
end;

我会说它非常依赖数据。

这是测试和结果。我做了四次测试以确保没有意外。我还为 GJ (Time10a, Time10b) 提出的例程添加了新的时间。

          Test1  Test2  Test3  Test4

Time1   : 1,211  1,210  1,220  1,213
Time2   : 1,280  1,258  1,253  1,332
Time3   : 1,129  1,138  1,130  1,160

Time4a  : 0,690  0,682  0,617  0,635
Time4b  : 0,707  0,698  0,706  0,659
Time4c  : 0,679  0,685  0,626  0,625
Time5   : 0,715  0,682  0,686  0,679

Time6   : 0,490  0,485  0,522  0,514
Time7   : 0,323  0,333  0,336  0,318
Time8   : 0,407  0,403  0,373  0,354
Time9   : 0,352  0,378  0,355  0,355
Time10a : 1,823  1,812  1,807  1,813
Time10b : 1,113  1,120  1,115  1,118
Time10c : 0,652  0,630  0,653  0,633
Time10d : 0,156  0,155  0,172  0,160  <-- current winner!

如您所见4a，4b、4c和的结果5非常接近。这是为什么？因为我已经从 4a、4b 中删除了（4c 已经没有了）两条指令：push eax和pop eax. 因为我知道我不会在代码中的其他任何地方使用 eax 下的值，所以我不必保留它。现在我的代码只有一对推送/弹出，所以例程 5. 例程 5 保留 eax 的值，因为它首先在 ecx 下复制它，但它不保留 ecx。

所以我的结论是： 5 和 4a 和 4b 的时间执行差异（在第三次编辑之前）与数据相关性无关，而是由额外的一对推送/弹出指令引起的。

我对你的评论很感兴趣。

几天后，GJ 发明了比 PhiS 更快的程序（时间 10d）。干得好GJ！

score 16 · Accepted Answer

一般来说，我个人不会尝试通过使用汇编程序级别的技巧来优化代码，除非你真的需要额外的 2% 或 3% 的速度，并且你愿意为更难阅读的代码付出代价，维护和端口。

为了压缩最后 1%，您甚至可能必须维护针对每个处理器优化的多个版本，如果出现更新的处理器和改进的 pascal 编译器，您将不会从中受益。

这个 Delphi 代码比你最快的汇编代码更快：

procedure DecodePixels5(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  DecPixels[0] := (EncPixels shr 0) and $01;
  DecPixels[1] := (EncPixels shr 1) and $01;
  DecPixels[2] := (EncPixels shr 2) and $01;
  DecPixels[3] := (EncPixels shr 3) and $01;
  DecPixels[4] := (EncPixels shr 4) and $01;
  DecPixels[5] := (EncPixels shr 5) and $01;
  DecPixels[6] := (EncPixels shr 6) and $01;
  DecPixels[7] := (EncPixels shr 7) and $01;
end;


Results:

Time1  : 1,03096806151283 ms.    <- Delphi loop.
Time2  : 0,740308641141395 ms.   <- Delphi unrolled loop.
Time3  : 0,996602425688886 ms.   <- BASM loop.
Time4a : 0,608267951561275 ms.   <- BASM unrolled loop.
Time4b : 0,574162510648039 ms.   <- BASM unrolled loop instruction switch.
Time5  : 0,499628206138524 ms. !!!  <- Delphi unrolled loop 5.

它很快，因为操作可以只用寄存器来完成，而不需要存储和获取内存。现代处理器部分并行执行此操作（可以在前一个操作完成之前开始新操作），因为连续指令的结果彼此独立。

机器代码如下所示：

  push ebx;
  // DecPixels[0] := (EncPixels shr 0) and 1;
  movzx ecx,al
  mov ebx,ecx
  //  shr ebx,$00
  and bl,$01
  mov [edx],bl
  // DecPixels[1] := (EncPixels shr 1) and 1;
  mov ebx,ecx
  shr ebx,1
  and bl,$01
  mov [edx+$01],bl
  // DecPixels[2] := (EncPixels shr 2) and 1;
  mov ebx,ecx
  shr ebx,$02
  and bl,$01
  mov [edx+$02],bl
  // DecPixels[3] := (EncPixels shr 3) and 1;
  mov ebx,ecx
  shr ebx,$03
  and bl,$01
  mov [edx+$03],bl
  // DecPixels[4] := (EncPixels shr 4) and 1;
  mov ebx,ecx
  shr ebx,$04
  and bl,$01
  mov [edx+$04],bl
  // DecPixels[5] := (EncPixels shr 5) and 1;
  mov ebx,ecx
  shr ebx,$05
  and bl,$01
  mov [edx+$05],bl
  // DecPixels[6] := (EncPixels shr 6) and 1;
  mov ebx,ecx
  shr ebx,$06
  and bl,$01
  mov [edx+$06],bl
  // DecPixels[7] := (EncPixels shr 7) and 1;
  shr ecx,$07
  and cl,$01
  mov [edx+$07],cl
  pop ebx;

编辑：正如建议的那样，表查找确实更快。

var
  PixelLookup:Array[byte] of TDecodedPixels;

// You could precalculate, but the performance gain would hardly be worth it because you call this once only.
for I := 0 to 255 do
  DecodePixels5b(I, PixelLookup[I]);


procedure DecodePixels7(EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  DecPixels := PixelLookup[EncPixels];
end;

Results:

Time1  : 1,03096806151283 ms.    <- Delphi loop.
Time2  : 0,740308641141395 ms.   <- Delphi unrolled loop.
Time3  : 0,996602425688886 ms.   <- BASM loop.
Time4a : 0,608267951561275 ms.   <- BASM unrolled loop.
Time4b : 0,574162510648039 ms.   <- BASM unrolled loop instruction switch.
Time5  : 0,499628206138524 ms. !!!  <- Delphi unrolled loop 5.
Time7 : 0,251533475182096 ms.    <- simple table lookup

score 6 · Accepted Answer

您的 asm 代码相对较慢，因为使用堆栈结束写入内存 8 次。检查这个...

procedure DecodePixels(EncPixels: Byte; var DecPixels: TDecodedPixels);
asm
  xor   ecx, ecx
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 1
  mov   [DecPixels + 4], ecx
  xor   ecx, ecx
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 8
  add   al, al
  rcl   ecx, 1
  mov   [DecPixels], ecx
end;

也许比带有查找表的代码还要快！

改良版：

procedure DecodePixelsI(EncPixels: Byte; var DecPixels: TDecodedPixels);
asm
  mov   ecx, 0    //Faster than: xor   ecx, ecx
  add   al, al
  rcl   ch, 1
  add   al, al
  rcl   cl, 1
  ror   ecx, 16
  add   al, al
  rcl   ch, 1
  add   al, al
  rcl   cl, 1
  mov   [DecPixels + 4], ecx
  mov   ecx, 0    //Faster than: xor   ecx, ecx
  add   al, al
  rcl   ch, 1
  add   al, al
  rcl   cl, 1
  ror   ecx, 16
  add   al, al
  rcl   ch, 1
  add   al, al
  rcl   cl, 1
  mov   [DecPixels], ecx
end;

版本 3：

procedure DecodePixelsX(EncPixels: Byte; var DecPixels: TDecodedPixels);
asm
  add   al, al
  setc  byte ptr[DecPixels + 7]
  add   al, al
  setc  byte ptr[DecPixels + 6]
  add   al, al
  setc  byte ptr[DecPixels + 5]
  add   al, al
  setc  byte ptr[DecPixels + 4]
  add   al, al
  setc  byte ptr[DecPixels + 3]
  add   al, al
  setc  byte ptr[DecPixels + 2]
  add   al, al
  setc  byte ptr[DecPixels + 1]
  setnz byte ptr[DecPixels]
end;

版本 4：

const Uint32DecPix : array [0..15] of cardinal = (
  $00000000, $00000001, $00000100, $00000101,
  $00010000, $00010001, $00010100, $00010101,
  $01000000, $01000001, $01000100, $01000101,
  $01010000, $01010001, $01010100, $01010101
  );

procedure DecodePixelsY(EncPixels: byte; var DecPixels: TDecodedPixels); inline;
begin
  pcardinal(@DecPixels)^ := Uint32DecPix[EncPixels and $0F];
  pcardinal(cardinal(@DecPixels) + 4)^ := Uint32DecPix[(EncPixels and $F0) shr 4];
end;

score 5 · Accepted Answer

扩展 Nick D 的答案，我尝试了以下基于表格查找的版本，所有这些版本都比您提供的实现更快（并且比 Wouter van Nifterick 的代码更快）。

给定以下打包数组：


      const Uint64DecPix : PACKED ARRAY [0..255] OF UINT64 =
  ( $0000000000000000, $0000000000000001, $0000000000000100, $0000000000000101, $0000000000010000, $0000000000010001, $0000000000010100, $0000000000010101, $0000000001000000, $0000000001000001, $0000000001000100, $0000000001000101, $0000000001010000, $0000000001010001, $0000000001010100, $0000000001010101,
    $0000000100000000, $0000000100000001, $0000000100000100, $0000000100000101, $0000000100010000, $0000000100010001, $0000000100010100, $0000000100010101, $0000000101000000, $0000000101000001, $0000000101000100, $0000000101000101, $0000000101010000, $0000000101010001, $0000000101010100, $0000000101010101,
    $0000010000000000, $0000010000000001, $0000010000000100, $0000010000000101, $0000010000010000, $0000010000010001, $0000010000010100, $0000010000010101, $0000010001000000, $0000010001000001, $0000010001000100, $0000010001000101, $0000010001010000, $0000010001010001, $0000010001010100, $0000010001010101,
    $0000010100000000, $0000010100000001, $0000010100000100, $0000010100000101, $0000010100010000, $0000010100010001, $0000010100010100, $0000010100010101, $0000010101000000, $0000010101000001, $0000010101000100, $0000010101000101, $0000010101010000, $0000010101010001, $0000010101010100, $0000010101010101,
    $0001000000000000, $0001000000000001, $0001000000000100, $0001000000000101, $0001000000010000, $0001000000010001, $0001000000010100, $0001000000010101, $0001000001000000, $0001000001000001, $0001000001000100, $0001000001000101, $0001000001010000, $0001000001010001, $0001000001010100, $0001000001010101,
    $0001000100000000, $0001000100000001, $0001000100000100, $0001000100000101, $0001000100010000, $0001000100010001, $0001000100010100, $0001000100010101, $0001000101000000, $0001000101000001, $0001000101000100, $0001000101000101, $0001000101010000, $0001000101010001, $0001000101010100, $0001000101010101,
    $0001010000000000, $0001010000000001, $0001010000000100, $0001010000000101, $0001010000010000, $0001010000010001, $0001010000010100, $0001010000010101, $0001010001000000, $0001010001000001, $0001010001000100, $0001010001000101, $0001010001010000, $0001010001010001, $0001010001010100, $0001010001010101,
    $0001010100000000, $0001010100000001, $0001010100000100, $0001010100000101, $0001010100010000, $0001010100010001, $0001010100010100, $0001010100010101, $0001010101000000, $0001010101000001, $0001010101000100, $0001010101000101, $0001010101010000, $0001010101010001, $0001010101010100, $0001010101010101,
    $0100000000000000, $0100000000000001, $0100000000000100, $0100000000000101, $0100000000010000, $0100000000010001, $0100000000010100, $0100000000010101, $0100000001000000, $0100000001000001, $0100000001000100, $0100000001000101, $0100000001010000, $0100000001010001, $0100000001010100, $0100000001010101,
    $0100000100000000, $0100000100000001, $0100000100000100, $0100000100000101, $0100000100010000, $0100000100010001, $0100000100010100, $0100000100010101, $0100000101000000, $0100000101000001, $0100000101000100, $0100000101000101, $0100000101010000, $0100000101010001, $0100000101010100, $0100000101010101,
    $0100010000000000, $0100010000000001, $0100010000000100, $0100010000000101, $0100010000010000, $0100010000010001, $0100010000010100, $0100010000010101, $0100010001000000, $0100010001000001, $0100010001000100, $0100010001000101, $0100010001010000, $0100010001010001, $0100010001010100, $0100010001010101,
    $0100010100000000, $0100010100000001, $0100010100000100, $0100010100000101, $0100010100010000, $0100010100010001, $0100010100010100, $0100010100010101, $0100010101000000, $0100010101000001, $0100010101000100, $0100010101000101, $0100010101010000, $0100010101010001, $0100010101010100, $0100010101010101,
    $0101000000000000, $0101000000000001, $0101000000000100, $0101000000000101, $0101000000010000, $0101000000010001, $0101000000010100, $0101000000010101, $0101000001000000, $0101000001000001, $0101000001000100, $0101000001000101, $0101000001010000, $0101000001010001, $0101000001010100, $0101000001010101,
    $0101000100000000, $0101000100000001, $0101000100000100, $0101000100000101, $0101000100010000, $0101000100010001, $0101000100010100, $0101000100010101, $0101000101000000, $0101000101000001, $0101000101000100, $0101000101000101, $0101000101010000, $0101000101010001, $0101000101010100, $0101000101010101,
    $0101010000000000, $0101010000000001, $0101010000000100, $0101010000000101, $0101010000010000, $0101010000010001, $0101010000010100, $0101010000010101, $0101010001000000, $0101010001000001, $0101010001000100, $0101010001000101, $0101010001010000, $0101010001010001, $0101010001010100, $0101010001010101,
    $0101010100000000, $0101010100000001, $0101010100000100, $0101010100000101, $0101010100010000, $0101010100010001, $0101010100010100, $0101010100010101, $0101010101000000, $0101010101000001, $0101010101000100, $0101010101000101, $0101010101010000, $0101010101010001, $0101010101010100, $0101010101010101);
PUint64DecPix : pointer = @Uint64DecPix;

您可以编写以下内容：


procedure DecodePixelsPS1Pas (EncPixels: Byte; var DecPixels: TDecodedPixels);
begin
  DecPixels := TDecodedPixels(Uint64DecPix[EncPixels]);
end;

procedure DecodePixelsPS1PasInline (EncPixels: Byte; var DecPixels: TDecodedPixels);
inline;
begin
  DecPixels := TDecodedPixels(Uint64DecPix[EncPixels]);
end;

procedure DecodePixelsPS1Asm (EncPixels: Byte; var DecPixels: TDecodedPixels);
asm
  lea ecx, Uint64DecPix //[<-Added in EDIT 3] 
  //mov ecx, dword ptr PUint64DecPix - alternative to the above line (slower for me)
  movzx eax, al
  movq xmm0, [8*eax+ecx]  //Using XMM rather than MMX so we don't have to issue emms at the end
  movq [edx], xmm0        //use MOVQ because it doesn't need mem alignment
end;

标准的 PAS 和 ASM 实现在速度方面非常相似，但标有“INLINE”的 PAS 实现是最快的，因为它摆脱了调用例程所涉及的所有 call/ret。

--编辑--：我忘了说：因为你隐含地假设了你的 TDecodedPixels 结构的内存布局，如果你将它声明为会更好


PACKED ARRAY [0..7] of byte

--EDIT2--：这是我的比较结果：


Time1 : 2.51638266874701 ms.    <- Delphi loop.
Time2 : 2.11277620479698 ms.    <- Delphi unrolled loop.
Time3 : 2.21972066282167 ms.    <- BASM loop.
Time4a : 1.34093090043567 ms.    <- BASM unrolled loop.
Time4b : 1.52222070123437 ms.    <- BASM unrolled loop instruction switch.
Time5 : 1.17106364076999 ms.    <- Wouter van Nifterick
TimePS1 : 0.633099318488802 ms.    <- PS.Pas
TimePS2 : 0.551617593856202 ms.    <- PS.Pas Inline
TimePS3 : 0.70921094720139 ms.    <- PS.Asm (speed for version before 3rd EDIT)

score 4 · Accepted Answer

编译器在优化小程序方面做得很好。

我会通过使用查找表来优化您的代码。
由于您解码单个字节 - 256 种不同的状态 - 您可以使用未打包的值预先计算 256 个数组。

编辑：请注意，奔腾处理器可以并行执行特定指令（超标量架构），这称为配对。

score 4 · Accepted Answer

纯软件解决方案

使用这个问题中的漂亮技术，再次受到这个问题的启发，我们将有一个像这样的很好的解决方案，只需要一行代码（不包括声明）

type TPackedDecodedPixels = record
case integer of
  0: (a: TDecodedPixels);
  1: (v: Int64);
end;

procedure DecodePixels(EncPixels: byte; var DecPixels: TDecodedPixels); inline;
const
  magic = $8040201008040201;
  mask  = $8080808080808080;
begin
  TPackedDecodedPixels(DecPixels).v := SwapEndian(((EncPixels*magic) and mask) shr 7);
end;

当然，您需要确保DecPixels正确对齐 8 字节，否则您可能会遇到一些减速（甚至其他架构上的段错误）。您还可以轻松地对函数进行矢量化以使其更快

解释

假设我们有以下位模式abcdefgh。我们希望输出数组包含

0000000a 0000000b 0000000c 0000000d 0000000e 0000000f 0000000g 0000000h (1)

以 64 位整数的形式读取little endian%0000000h0000000g0000000f0000000e0000000d0000000c0000000b0000000a ，我们将得到. 我们必须找到一个幻数，将原始位移动到我们可以提取必要位的位置

让我们将值乘以幻数

  |  b7  ||  b6  ||  b4  ||  b4  ||  b3  ||  b2  ||  b1  ||  b0  |
                                                          abcdefgh (1-byte value)
x 1000000001000000001000000001000000001000000001000000001000000001
  ────────────────────────────────────────────────────────────────
= h0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh

此时，所有像素的位都已移动到相应字节的最高有效位。由于它们已经位于正确的位置，我们只需要删除剩余的位and

  |  b7  ||  b6  ||  b4  ||  b4  ||  b3  ||  b2  ||  b1  ||  b0  |
  h0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh0abcdefgh
& 1000000010000000100000001000000010000000100000001000000010000000
  ────────────────────────────────────────────────────────────────
= h0000000g0000000f0000000e0000000d0000000c0000000b0000000a0000000 (8-byte array)

现在像素的位在相应字节的最高有效位中，我们需要进行逻辑右移 7以将它们移动到最低有效位置。因为 OP 想要逆序的值，所以我们需要SwapEndian()将字节转换为大端。如果你只想要小端，你可以在这一步停下来

所以幻数是%1000000001000000001000000001000000001000000001000000001000000001 = $8040201008040201，掩码是%1000000010000000100000001000000010000000100000001000000010000000 = $8080808080808080。当然在现实中要解决问题并得到我们需要从最终结果向后做的那些值→相乘结果→幻数

但是为什么我在（1）处将字节放入小端，然后必须转换回大端呢？为什么不按大端顺序排列字节并为此找到幻数呢？如果您对此感到疑惑，那是因为那样它一次最多只能工作 7 位。我在我的旧答案中这样做了，必须分开一点，然后再组合回来

                                                          0abcdefg
x 0000000000000010000001000000100000010000001000000100000010000001
  ────────────────────────────────────────────────────────────────
= 00000000abcdefgabcdefgabcdefgabcdefgabcdefgabcdefgabcdefgabcdefg
& 0000000000000001000000010000000100000001000000010000000100000001
  ────────────────────────────────────────────────────────────────    
= 000000000000000a0000000b0000000c0000000d0000000e0000000f0000000g

硬件支持

这实际上是使用常量掩码进行位扩展的一种特殊情况。在 AVX2 中，英特尔为此目的引入了BMI2pdep指令集中的指令，因此您只需要一条指令即可获得结果。在其他语言中，您可以将其与内部函数一起使用_pext_u64。不幸的是，AFAIK Free Pascal 不支持它，您必须直接使用汇编。但是表达式看起来像这样

TPackedDecodedPixels(DecPixels).v := _pext_u64(EncPixels, $0101010101010101);

正确性检查

我尝试将 OP 的版本与我的两个版本进行比较，直到现在都没有发现任何问题。编译器输出是这样的

mov al, dil
mov rbx, rsi
movzx edi, al
movabs rax, 0x8040201008040201
imul rdi, rax
movabs rax, 0x8080808080808080
and rdi, rax
shr rdi, 0x7
call 4016a0 <SYSTEM_$$_SWAPENDIAN$INT64$$INT64>
mov QWORD PTR [rbx], rax

FPC 输出仍然非常不理想，因为编译器不知道将调用替换为SwapEndian，BSWAP并且它不必要地复制数据。为什么mov al, dil; movzx edi, al不只是movzx edi, dil？如您所见，C 和 C++ 编译器的输出要好得多

请参阅如何从 8 个布尔值中创建一个字节（反之亦然）？

score 3 · Accepted Answer

我正要给出与 Wouter van Nifterick 相同的算法。

此外，我将解释依赖链方面的更好性能。在您提出的每个版本中，当您展开基本循环时，您在两个连续迭代之间保持依赖关系：每个版本都shr al, $01;需要计算 al 的先前值。如果您组织展开的迭代以便它们可以并行执行，它们实际上将在现代处理器上。不要被可以通过寄存器重命名抑制的错误依赖所迷惑。

有人指出，奔腾可以同时执行两条指令。确实如此，但是现代处理器（从 Pentium Pro、PII、...、Core、Core 2 开始）在有机会的情况下（即没有依赖关系）同时执行两条以上的指令在正在执行的指令之间。注意在 Wouter van Nifterick 的版本中，每一行都可以独立于其他行执行。

http://www.agner.org/optimize/拥有您了解现代处理器架构以及如何利用它们所需的所有信息。

score 2 · Accepted Answer

如果您只支持 80386 及更高版本，您可以通过以下方式使用 BTcc 和 SETcc 指令集：

BT ax,1
SETC [dx]
inc dx

BT ax,2
SETC [dx]
inc dx

ETC

score 2 · Accepted Answer

怎么样：

/* input byte in eax, address to store result in edx */
and eax, 0xff    /* may not be needed */
mov ebx, eax
shl ebx, 7
or  eax, ebx
mov ebx, eax
shl ebx, 14
or  eax, ebx
mov ebx, eax
and eax, 0x01010101
mov [edx], eax
shr ebx, 4
and ebx, 0x01010101
mov [edx+4], ebx

score 1 · Accepted Answer

4b 比 4a 快的可能原因是它的并行性更好。从 4a 开始：

mov bl, al;
and bl, $01;          // data dep (bl)
mov  [edx], bl;       // data dep (bl)
shr al, $01;
mov bl, al;           // data dep (al)
and bl, $01;          // data dep (bl)
mov [edx + $01], bl;  // data dep (bl)

标记为“data dep”的指令在前一条指令完成之前无法开始执行，并且我已经编写了导致这种数据依赖的寄存器。如果没有依赖关系，现代 CPU 能够在最后一条指令完成之前启动一条指令。但是您订购这些操作的方式可以防止这种情况发生。

在 4b 中，您的数据依赖项更少：

mov bl, al;
and bl, $01;          // data dep (bl)
shr al, $01;
mov [edx], bl;
mov bl, al;
and bl, $01;          // data dep (bl)
shr al, $01;
mov [edx + $01], bl;

通过这种指令顺序，更少的指令依赖于前一条指令，因此有更多的并行机会。

我不能保证这是速度差异的原因，但它是一个可能的候选者。不幸的是，很难找到与您正在寻找的答案一样绝对的答案。现代处理器具有分支预测器、多级缓存、硬件预取器以及各种其他复杂性，这些复杂性可能难以找出性能差异的原因。您能做的最好的事情就是大量阅读、进行实验并熟悉进行良好测量的工具。

score 0 · Accepted Answer

我想这是写入内存（实际上是缓存内存）比使用寄存器慢。

所以，

mov [edx+...], bl
shr al, $01;
mov bl, al;

在再次需要寄存器之前给处理器一些时间来写入bl内存bl，而

shr al, $01;
mov [edx], bl;
mov bl, al;

需要bl立即，因此处理器必须停止并等待内存写入完成。

这让我很惊讶。现代英特尔处理器进行疯狂的流水线和寄存器重命名，所以在我看来，如果有的话，DecodePixels4b 应该更快，因为每条指令的依赖关系更靠后。以上是我能提供的所有解释，除此之外：

x86 是一个糟糕的指令集，英特尔做了惊人的和非常先进的 hocus-pocus 来提高它的效率。如果我是你，我会研究别的东西。如今，用于 PC 的 megaMcOptimized 软件的需求非常少。我的友好建议是研究用于移动设备（主要是 ARM）的处理器，因为在移动设备中，处理器速度、功耗和电池寿命问题意味着微优化软件更为重要。并且 ARM 具有针对 x86 的高级指令集。

score 0 · Accepted Answer

SIMD

如果将算法扩展到处理数组，那么 SIMD 将成为优化选项。这是一个 SIMD 版本，它是优化 C 等效时间的 1/3：

int main ()
{
  const int
    size = 0x100000;

  unsigned char
    *source = new unsigned char [size],
    *dest,
    *dest1 = new unsigned char [size * 32],
    *dest2 = new unsigned char [size * 32];

  for (int i = 0 ; i < size ; ++i)
  {
    source [i] = rand () & 0xff;
  }

  LARGE_INTEGER
    start,
    middle,
    end;

  QueryPerformanceCounter (&start);
  dest = dest1;
  for (int i = 0 ; i < size ; ++i)
  {
    unsigned char
      v = source [i];

    for (int b = 0 ; b < 8 ; ++b)
    {
      *(dest++) = (v >> b) & 1;
    }
  }
  unsigned char
    bits [] = {1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128},
    zero [] = {0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
    ones [] = {1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1};

  QueryPerformanceCounter (&middle);
  __asm
  {
    movdqu xmm1,bits
    movdqu xmm2,zero
    movdqu xmm3,ones
    mov ecx,0x100000/4
    mov esi,source
    mov edi,dest2
l1:
    lodsd
    movd xmm0,eax
    movd xmm4,eax
    punpcklbw xmm0,xmm0
    punpcklbw xmm4,xmm4
    punpcklwd xmm0,xmm0
    punpcklwd xmm4,xmm4
    punpckldq xmm0,xmm0
    punpckhdq xmm4,xmm4
    pand xmm0,xmm1
    pand xmm4,xmm1
    pcmpeqb xmm0,xmm2
    pcmpeqb xmm4,xmm2
    paddb xmm0,xmm3
    paddb xmm4,xmm3
    movdqu [edi],xmm0
    movdqu [edi+16],xmm4
    add edi,32
    dec ecx
    jnz l1
  }
  QueryPerformanceCounter (&end);

  cout << "Time taken = " << (middle.QuadPart - start.QuadPart) << endl;
  cout << "Time taken = " << (end.QuadPart - middle.QuadPart) << endl;
  cout << "memcmp = " << memcmp (dest1, dest2, size * 32) << endl;

  return 0;
}

score -1 · Accepted Answer

令人难以置信的智能解决方案 Chris，您将如何处理逆问题：从 8 个字节的数组中创建一个字节？

逆问题的非优化解：

BtBld PROC Array:DWORD, Pixels:DWORD
  mov  eax, [Array]
  add  eax, 7
  mov  edx, [Pixels]

  mov  bx, 0

  mov  ecx, 8
rpt:  or  bx, [eax]
  dec  eax
  shl  bx, 1
  loop rpt
  shr  bx, 1
  mov  [edx], bl
  ret
BtBld ENDP

score -1 · Accepted Answer

如您所见，4a 和 4b 实现中的速度差异是由于 CPU 优化（通过并行执行多条指令/流水线指令）。但这个因素并不在操作数上，而是因为操作符本身的性质。

4a Instruction Sequence:
AND - MOV - SHR

4b Instruction Sequence:
AND - SHR - MOV

AND 和 SHR 都使用标志寄存器，因此这两条指令在其管道中具有等待状态。

阅读它们如下：

4a: AND (piped) MOV (piped) SHR
4b: AND (WAIT) SHR (piped) MOV

结论：4b 在其管道中的等待状态比 4a 多 7 个，因此速度较慢。

Josh 提到存在数据依赖关系，即：

mov bl, al;
and bl, $01;          // data dep (bl)

但这并不完全正确，因为这两条指令可以部分在 CPU 级别并行执行：

mov bl, al -> (A:) read al (B:) write bl  => (2 clocks in i386)
and bl, 01 -> (C:) read 01 (D:) write bl  => idem

按顺序它们需要 4 个时钟，但流水线它们只需要 3 个“时钟”（实际上术语“时钟”从流水线的角度来看是不够的，但我在简单的情况下使用它）

[--A--][--B--]
 [--C--]<wait>[---D--]

delphi - 英特尔 x86 汇编优化技术，用于将 8 位扩展为 0 或 1 的 8 个布尔字节

1.

2.

13 回答 13

纯软件解决方案

解释

硬件支持

正确性检查

Related

Reference