我有一个分段布隆过滤器的位表。在这里,每一列都由一个哈希函数管理。
unsigned char bit_table_[ROWS][COLUMNS];//bit_table now have 8*ROWS*COLUMNS bits
unsigned char bit_mask[bits_per_char] = { 0x01,0x02,0x04,0x08,
0x10,0x20,0x40,0x80};
有ROWS个散列函数,每个散列函数处理COLUMNS*8位的设置和检查。
元素被散列并且bit_index和bit被计算为
compute_indices(unsigned int hash)
{
bit_index=hash%COLUMNS;
bit=bit_index%8;
}
现在插入完成为
for (std::size_t i = 0; i < ROWS; ++i)
{
hash=compute_hash(i,set_element);
compute_indices(hash);
bit_table_[i][bit_index ] |= bit_mask[bit];
}
查询是
for (std::size_t i = 0; i < ROWS; ++i)
{
hash=compute_hash(i,set_element);
compute_indices(hash);
if (((bit_table_[i][bit_index])& bit_mask[bit]) != bit_mask[bit])
{
return false;
}
}
我的问题是布隆过滤器很快就满了,我怀疑我没有正确使用字符的各个位。例如,我想我应该有类似的东西:
bit_table_[i][bit_index][bit]|=bit_mask[bit];
对于插入,但是,由于bit_table被声明为二维数组,我不允许这样做。
我应该怎么做才能使用 char 数组的各个位?
英语是我的第二语言,所以你可能无法理解我的问题。如果需要,我很乐意进一步解释我的观点。
编辑: compute_hash(i,set_elemnt)使用预定义的盐值来计算要插入或查询的元素的哈希值。