c++ - 使用汇编代码从内存复制到 C++ 中的寄存器

Question

我在将 c++ 程序转换为程序集时遇到问题，我必须这样做

这是我的 C++ 代码

for(int i=0;i<rows-4;i++,a+=4,b+=4,c+=4,d+=4,e+=4,f+=4,x+=4,o+=4){
  for(int j=0;j<cols-4;j++,a++,b++,c++,d++,e++,f++,x++,o++){
    *o=*a>*x;
    *o=*b>*x|(*o<<1);
    *o=*c>*x|(*o<<1);
    *o=*d>*x|(*o<<1);
    *o=*e>*x|(*o<<1);
    *o=*f>*x|(*o<<1);
    }
}

o 是指向输出数据的指针，而 a,b,c,d,e,f 和 x 是指向输入数据的指针。我想要的只是将输入数据的比较结果保存到单个变量中，但是当正在处理的数据很大时，上面的代码效率不高。与将临时数据保存在寄存器中相比，程序需要更多时间将数据保存到内存中。

所以我想做的就是让这个过程在注册中完成。我尝试过的是我将 x 引用的数据存储在 EBX 中，将 EBX 与 ECX 进行比较，ECX 保存 a 引用的值（以及 b、c、d、e、f 顺序），将比较结果保存到 EAX 并移位将 EAX 寄存器向左，以便所有比较将存储在一个变量中。在已经处理完所有 6 个比较之后，来自 ECX 的值被复制到内存中。

这就是我所做的，我的程序运行速度可以快两倍，但我得到的所有值都为零。也许我做错了？

      __asm__(
"xorl %%eax,%%eax;"
"xorl %%ebx,%%ebx;"
"xorl %%ecx,%%ecx;"

"movl %1, %%ebx;"

//start here
"movl %2,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .one;"
"orl $0x1,%%eax;"

".one:;"
"shll $1,%%eax;"
"movl %3,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .two;"
"orl $0x1,%%eax;"

".two:;"
"shll $1,%%eax;"
"movl %4,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .three;"
"orl $0x1,%%eax;"

".three:;"
"shll $1,%%eax;"
"movl %5,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .four;"
"orl $0x1,%%eax;"

".four:"
"shll $1,%%eax;"
"movl %6,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .five;"
"orl $0x1,%%eax;"

".five:"
"shll $1,%%eax;"
"movl %7,%%ecx;"
"cmp %%ebx,%%ecx;"
"jnz .six;"
"orl $0x1,%%eax;"

".six:"
//output
"movl %%eax,%0;"

:"=r"(sett)
:"r"((int)*x),"r"((int)*a) ,"r"((int)*b) ,"r"((int)*c) ,"r"((int)*d),"r"((int)*e),"r"((int)*f) /* input */
  );

score 1 · Accepted Answer

几个选项：

1）扔掉你手工制作的汇编代码。你说 C 代码很慢，告诉我们慢了多少。我看不出如何以任何有意义的方式测量差异，因为 asm 版本甚至没有产生正确的结果。换句话说， try asm("nop;");，这是产生错误结果的更快方法。

2）重写你的C代码只读*x一次；将结果保存在一个临时变量中，并且只在最后写入*o。

3）如果适合您的语义（并且由您的编译器支持）用//（来自C99，通常在C++中作为扩展可用）装饰您的指针，restrict以便__restrict编译__restrict__器知道当您写入时输入变量不会发生变化*o。

4) 编译器非常擅长自动展开循环。它可能需要命令行选项、#pragma指令或扩展/属性的组合。

编辑

这就是我重写它以使用临时对象的意思：

for(int i=0;i<rows-4;i++,a+=4,b+=4,c+=4,d+=4,e+=4,f+=4,x+=4,o+=4){
    for(int j=0;j<cols-4;j++,a++,b++,c++,d++,e++,f++,x++,o++){
        uint32_t tmp_x = *x;
        *o = (*a > tmp_x ? 0x20 : 0)
          |  (*b > tmp_x ? 0x10 : 0)
          |  (*c > tmp_x ? 0x08 : 0)
          |  (*d > tmp_x ? 0x04 : 0)
          |  (*e > tmp_x ? 0x02 : 0)
          |  (*f > tmp_x ? 0x01 : 0);
    }
}

它有什么区别？在原始版本中，x从每个作业中读取。编译器不知道这一点o并x指向不同的位置；在最坏的情况下，编译器每次都必须再次读取，因为通过写入， in的值可能会发生变化。xox

当然，这段代码有不同的语义：如果你真的让o另一个指针别名，它会做一些与原来不同的事情。

score 0 · Accepted Answer

我将假设您使用的是最新的英特尔芯片。...而且我认为您真正想要使用的是（如果有人用来说 Cray，则相当有限：-）矢量功能，这些功能称为 AVX。还有一些库可以在 C/C++ 下执行此操作，从谷歌搜索 AVX 和 C 开始。

话虽如此，您还可以使用“register”关键字告诉编译器将一些变量存储在寄存器中，请参阅C++ 中的这个 Register 关键字

c++ - 使用汇编代码从内存复制到 C++ 中的寄存器

2 回答 2

编辑

Related

Reference