14

好的,这听起来可能有点复杂,但这是我想要做的:

  • 以例如10101010101
  • 并返回{ 0, 2, 4, 6, 8, 10 }- 一个包含所有已设置位位置的数组

这是我的代码:

UINT DQBitboard::firstBit(U64 bitboard)
{
    static const int index64[64] = {
    63,  0, 58,  1, 59, 47, 53,  2,
    60, 39, 48, 27, 54, 33, 42,  3,
    61, 51, 37, 40, 49, 18, 28, 20,
    55, 30, 34, 11, 43, 14, 22,  4,
    62, 57, 46, 52, 38, 26, 32, 41,
    50, 36, 17, 19, 29, 10, 13, 21,
    56, 45, 25, 31, 35, 16,  9, 12,
    44, 24, 15,  8, 23,  7,  6,  5  };

    static const U64 debruijn64 = 0x07EDD5E59A4E28C2ULL;

    #pragma warning (disable: 4146)
    return index64[((bitboard & -bitboard) * debruijn64) >> 58];  
}

vector<UINT> DQBitboard::bits(U64 bitboard)
{
    vector<UINT> res;

    while (bitboard)
    {
        UINT first = DQBitboard::firstBit(bitboard);
        res.push_back(first);

        bitboard &= ~(1ULL<<first);
    }

    return res;
}

并且代码确实有效

我的观点是:

  • 您有什么更快的实施方案吗?
  • 你注意到有什么可以优化的吗?如果是这样,是什么?

提示:

  • UINT是一个 typedefunsigned int
  • U64是一个 typedefunsigned long long
  • 两种方法都是static inline
4

8 回答 8

10

这是另一个可以分析的建议(可以与其他建议结合以进行进一步优化)。注意,这里的循环是O(number of set bits).

vector<UINT> bits_set (UINT64 data) 
{
    UINT n;
    vector<UINT> res;
    res.reserve(64);
    for (n = 0; data != 0; n++, data &= (data - 1))
    {
        res.push_back(log2(data & ~(data-1)));
    }
    return res;
}
于 2012-12-30T00:05:29.077 回答
7

位移真的很便宜。查找表需要缓存空间,并且您的查找也有整数乘法。我预计,只是蛮力会比聪明的技术更快。

vector<UINT> DQBitboard::bits(U64 bitboard)
{
    vector<UINT> res;
    res.reserve(64);
    uint_fast8_t pos = 1;

    do {
        if (bitboard & 1) res.push_back(pos);
        ++pos;
    } while (bitboard >>= 1);

    return res;
}

您可以稍微展开循环,这可能会使其更快。

std::vector是迄今为止最昂贵的部分。考虑直接使用位板。例如:

struct bitboard_end_iterator{};
struct bitboard_iterator
{
    U64 value;
    uint_fast8_t pos;

    bitboard_iterator(U64 bitboard) : value(bitboard), pos(0)
    {
        ++(*this);
    }
    UINT operator*() const { return pos + 1; }
    bool operator==( bitboard_end_iterator ) const { return pos == 64; }
    operator bool() const { return pos < 64; }
    bitboard_iterator& operator++()
    {
        while (U64 prev = value) {
            value >>= 1;
            ++pos;
            if (prev & 1) return *this;
        }
        pos = 64;
        return *this;
    }
};

现在你可以写

for( bitboard_iterator it(bitboard); it; ++it )
    cout << *it;

我想你会得到你的比特清单。

版本 2:

class bitboard_fast_iterator
{
    U64 value;
    uint_fast8_t pos;

public:
    bitboard_fast_iterator(U64 bitboard = 0) : value(bitboard), pos(__builtin_ctzll(value)) {}
    UINT operator*() const { return pos + 1; }
    operator bool() const { return value != 0; }
    bitboard_iterator& operator++()
    {
        value &= ~(1ULL << pos);
        pos = __builtin_ctzll(value);
        return *this;
    }
};
于 2012-12-29T23:42:05.477 回答
6

我一直想知道使用 bst 汇编指令是否会更快。所以我尝试了 3 次实现,并在 1000 万次迭代中得到了以下结果:

你的实现 (Dr.Kameleon) 1.77 秒

log2() 实现 (icepack) 2.17 秒

我的组装实现(我)0.16秒

输出:

bits version:
Function started at 0
           ended at 177
              spent 177 (1.770000 seconds)
c version:
Function started at 177
           ended at 394
              spent 217 (2.170000 seconds)
c version:
Function started at 394
           ended at 410
              spent 16 (0.160000 seconds)

关于 C/C++ 的一点,静态是可怕的。它实际上是在 CPU 指令列表中编译的(也不是我所期望的!!!)相反,在函数之外的无名命名空间中使用数组。这将产生预期的效果。尽管在汇编中您可以使用 .long (或其他大小)然后 %rip 来引用来自 IP 的数据。

注意:编译后,我看不到我的程序集版本中使用的大小 (n),所以我不太确定返回的数组是否有效。除此之外,代码本身变成了 5 个汇编指令的循环,因此速度有微小的提高(大约 x10)。

log2() 缓慢的原因是它将数字转换为 xmm 寄存器,然后调用另一个函数。然后它将 xmm 寄存器转换回常规寄存器。

#include <stdlib.h>
#include <stdio.h>
#include <inttypes.h>
#include <unistd.h>
#include <sys/times.h>
#include <string.h>
#include <math.h>
#include <vector>

using namespace std;

namespace
{
const int index64[64] = {
    63,  0, 58,  1, 59, 47, 53,  2,
    60, 39, 48, 27, 54, 33, 42,  3,
    61, 51, 37, 40, 49, 18, 28, 20,
    55, 30, 34, 11, 43, 14, 22,  4,
    62, 57, 46, 52, 38, 26, 32, 41,
    50, 36, 17, 19, 29, 10, 13, 21,
    56, 45, 25, 31, 35, 16,  9, 12,
    44, 24, 15,  8, 23,  7,  6,  5  };
const uint64_t debruijn64 = 0x07EDD5E59A4E28C2ULL;
}

int firstBit(uint64_t bitboard)
{
    return index64[((bitboard & -bitboard) * debruijn64) >> 58];  
}

vector<int> bits(uint64_t bitboard)
{
    vector<int> res;
    res.reserve(64);

    while(bitboard)
    {
        int first = firstBit(bitboard);
        res.push_back(first);

        bitboard &= ~(1ULL << first);
    }
    return res;
}



vector<int> bits_c(uint64_t bitboard)
{
    int n;
    vector<int> res;
    res.reserve(64);
    for (n = 0; bitboard != 0; n++, bitboard &= (bitboard - 1))
    {
        res.push_back(log2(bitboard & ~(bitboard - 1)));
    }
    return res;
}


vector<int> bits_asm(uint64_t bitboard)
{
    int64_t n(0);
    int res[64];
    asm(
    "bsf %[b], %%rax\n\t"
    "je exit\n\t"
    ".align 16\n"
"loop:\n\t"
    "mov %%eax, (%[r],%[n],4)\n\t"
    "btr %%rax, %[b]\n\t"
    "inc %[n]\n\t"
    "bsf %[b], %%rax\n\t"
    "je loop\n"
"exit:\n\t"
    : /* output */ "=r" (n)
    : /* input */ [n] "r" (n), [r] "r" (res), [b] "r" (bitboard)
    : /* state */ "eax", "cc"
    );
    return vector<int>(res, res + n);
}




class run_timer
{
public:
    run_timer()
    {
    }

    void start()
    {
        times(&f_start);
    }

    void stop()
    {
        times(&f_stop);
    }

    void report(const char *msg)
    {
        printf("%s:\n"
               "Function started at %ld\n"
               "           ended at %ld\n"
               "              spent %ld (%f seconds)\n",
               msg,
               f_start.tms_utime,
               f_stop.tms_utime,
               f_stop.tms_utime - f_start.tms_utime,
               (double)(f_stop.tms_utime - f_start.tms_utime)/(double)sysconf(_SC_CLK_TCK));
    }

    struct tms f_start;
    struct tms f_stop;
};


int main(int argc, char *argv[])
{
    run_timer t;

    t.start();
    for(int i(0); i < 10000000; ++i)
    {
        bits(rand());
    }
    t.stop();
    t.report("bits version");

    t.start();
    for(int i(0); i < 10000000; ++i)
    {
        bits_c(rand());
    }
    t.stop();
    t.report("c version");

    t.start();
    for(int i(0); i < 10000000; ++i)
    {
        bits_asm(rand());
    }
    t.stop();
    t.report("c version");

    return 0;
}

使用以下命令行使用 g++ 编译:

c++ -msse4.2 -O2 -o bits -c bits.cpp

尽管您可能认为 -msse4.2 可能是 log2() 版本的问题,但我尝试不使用它,然后 log2() 速度较慢。

顺便说一句,我不推荐这种方法,因为它不可移植。只有基于 Intel 的计算机才能理解这些指令。

于 2012-12-30T02:22:24.510 回答
5

使用or指令将您的firstBit函数替换为内部函数,以实现大幅加速。BSFBSR

在 gcc 中,它是__builtin_ffsll__builtin_ctzll

使用 Visual C+,_BitScanForward以及_BitScanReverse

于 2012-12-30T00:36:04.290 回答
3

我现在能想到的最快的方法是使用预先生成的map所有数字的数组(它不必是所有数字,例如,您可以将数字分解为 8 位或 16 位部分,然后将返回的数组与一些适当的添加连接起来,以说明位的实际位置)。

于 2012-12-29T23:33:11.213 回答
3
const size_t size = sizeof(U64)*8;
U64 val = 1;

vector<UINT> res;
res.reserve(size);

for ( size_t i = size; i > 0; --i ) {
  if ( ( val & bitboard ) != 0 ) {
    res.push_back(i);
  }
  val <<= 1;
}
于 2012-12-29T23:36:34.433 回答
3

我尝试了一个简单的版本,它的时钟速度快了大约 2-3 倍,但首先保留了向量。在将保留应用于原始算法时,它击败了天真的算法。

所以我怀疑向量操作在这里是更大的成本,而不是位操作(甚至是下一位函数中使用的乘法)。

关于找到最低设置位,还有一些其他的加速。我本地的log2版本很差,原帖给出的功能也不是超级便宜。

这是我最好的尝试:

void bits(uint64 bitboard, vector<int> &res)
{
    res.resize(64);
    int i = 0;
    while (bitboard)
    {
        int first;
        _BitScanForward64((DWORD *)&first, bitboard);
        res[i++] = first;
        bitboard &= ~(1ULL<<first);
    }
    res.resize(i);
}

用 asm 内在函数替换了 firstBit 函数。使用内在函数在这里得到了很大的推动。(这显然不是可移植的代码,尽管我怀疑 GCC 变体不应该太棘手)。

还假设向量是合理持久的,而不是一直动态分配/复制,并且只是适当地调整它的大小。

于 2012-12-29T23:46:28.343 回答
2

我实际上认为最快、最简单的方法就是简单地循环,但如果我们传入一个向量而不是稍后制作一个副本,它应该会快一点。

void DQBitboard::bits(U64 bitboard, vector<UINT> &res)
{
    res.clear();   // Make sure vector is empty. Not necessary if caller does this!
    int bit = 0;
    while (bitboard)
    {
        if (bitboard & 1) 
            res.push_back(bit);
        bit++;
        bitboard >>= 1;
    }

    return res;
}

findfirst 中的乘法会花费一点,所以我怀疑它是否真的值得。

于 2012-12-29T23:46:54.397 回答