1

我有一个很大的哈希表(太大了,我无法检查每一行)(在 C++ 中使用 boost::unordered_map),其中键是 std::bitset,值是我拥有的一些结构。

假设我在表中有这个:

00010101 -> {"Hello"}
00100100 -> {"Good Bye"}
01111101 -> {"Whatever"}

如果我查询地图,因为map[01111101]我希望它返回“随便”。没关系,这就是地图的用途。但是,如果我查询map[00110101]我希望它返回“Hello”,因为“00010101”(Hello 的键)是我查询的“00110101”的子集。我用位表示集合,我认为这是不言自明的。

如果表中有多个条目,而键是查询的子集,我想要它们全部。

我不知道是否有这样的事情。我正在查看二元决策图,但我从未使用过它们,我不确定它们是否能解决问题。

谢谢。


编辑:设置表示。假设我有一组对象 A,B,C,D,E,F,G 我有两组 A,B,C 和 D,F。我将它们分别表示为 1110000 和 0001010。因此:1110000 不是 0001010 的子集(反之亦然),但 1000100 是 1010101 的子集。

4

2 回答 2

1

基于哈希表的映射在这里是错误的数据结构。

您可以通过将位字符串存储在 trie中来提高发现所有匹配项的效率,其中 trie 节点包含相应的字符串。

与链接示例中的尝试不同,您案例中的每个节点都有 0、1 或 2 个标记为 0 和/或 1 的子节点。

现在,您的案例中的查找移动以自定义方式遍历特里树。对于搜索键中的每个 1,您将搜索 trie 的相应 0 和 1 链接。对于每个 0,仅搜索 0 分支。您找到的节点将正是您想要的节点。

搜索时间将与搜索到的键值的总位串长度成正比,在最坏的情况下是树中的所有元素。

添加代码

这是一个玩具 C 实现供参考。

#include <stdio.h>
#include <stdlib.h>
#include <limits.h>

// Simple bit vectors of arbitrary length.
typedef struct {
  unsigned n_bits;
  unsigned *bits;
} BIT_VECTOR;

void init_bit_vector(BIT_VECTOR *v) {
  v->n_bits = 0;
  v->bits = NULL;
}

void setup_bit_vector(BIT_VECTOR *v, unsigned n_bits) {
  v->n_bits = n_bits;
  v->bits = calloc((n_bits + WORD_BIT - 1) / WORD_BIT, sizeof(unsigned));
}

void clear_bit_vector(BIT_VECTOR *v) {
  free(v->bits);
  v->n_bits = 0;
}

void set_bit_vector(BIT_VECTOR *v, unsigned *bits, unsigned n_bits) {
  unsigned n_words = (n_bits + WORD_BIT - 1) / WORD_BIT;
  for (int i = 0; i < n_words; i++) v->bits[i] = bits[i];
  v->n_bits = n_bits;
}

unsigned get_bit(BIT_VECTOR *v, int i) {
  unsigned mask = 1u << (i % WORD_BIT);
  return !!(v->bits[i / WORD_BIT] & mask);
}

// A trie map from bit vectors to strings.
typedef struct trie_s {
  struct trie_s *b[2];
  char *val;
} TRIE;

TRIE *make_trie(void) {
  TRIE *trie = malloc(sizeof *trie);
  trie->b[0] = trie->b[1] = NULL;
  trie->val = NULL;
  return trie;
}

// Add a key/value entry to the given trie map.
void put(TRIE *trie, BIT_VECTOR *key, char *val) {
  TRIE *p = trie;
  for (int i = 0; i < key->n_bits; ++i) {
    unsigned bit = get_bit(key, i);
    if (!p->b[bit]) p->b[bit] = make_trie();
    p = p->b[bit];
  }
  p->val = val;
}

// Recursive search that implements the subset membership check.
static void search(TRIE *trie, BIT_VECTOR *key, int i, char **buf, unsigned *n) {
  if (!trie) return;
  if (i == key->n_bits) {
    if (trie->val) buf[(*n)++] = trie->val;
    return;
  }
  unsigned bit = get_bit(key, i);
  // A standard trie search does this.
  search(trie->b[bit], key, i + 1, buf, n);
  // But here, add a search of the 0 branch if the key bit is 1.
  if (bit) search(trie->b[0], key, i + 1, buf, n);
}

// Get all entries with keys a subset of the search key.
unsigned get_all(TRIE *trie, BIT_VECTOR *key, char **buf) {
  int n = 0;
  search(trie, key, 0, buf, &n);
  return n;
}

typedef struct {
  unsigned bits;
  char *val;
} EXAMPLE_DATA;

int main(void) {
  TRIE *trie = make_trie();
  #define N (sizeof data / sizeof data[0])
  EXAMPLE_DATA data[] = {
    { 0b00010101, "Hello" },
    { 0b00100100, "Goodbye" },
    { 0b00101101, "Farewell" },
    { 0b01111101, "Whatever"},
  };
  BIT_VECTOR key[1];
  init_bit_vector(key);
  setup_bit_vector(key, 8);
  for (int i = 0; i < N; i++) {
    set_bit_vector(key, &data[i].bits, 8);
    put(trie, key, data[i].val);
  }
  unsigned search_val = 0b00110101;
  set_bit_vector(key, &search_val, 8);
  char *buf[N];
  unsigned n = get_all(trie, key, buf);
  printf("Found:\n");
  for (int i = 0; i < n; i++) 
    printf(" %s", buf[i]);
  printf(".\n");
  clear_bit_vector(key);
  return 0;
}
于 2016-03-24T04:35:46.910 回答
0

好的,让我们用map < int, string >. 现在我有这个

map < int,string > myMap;
myMap[13] = "Hello"; //13 is 00010101
myMap[36] = "Good Bye";

给定 a key,您希望打印所有子集。您所要做的就是检查所有密钥并检查是否keymap key. 您可以通过二进制操作来实现这&一点(我知道它可以在 bitset 上工作(是的,它们毕竟是二进制操作))。让我们来看看这个简单的解释。

说二进制的13是00010101

现在你有 00000001,它是 00010101 的子集。

要被称为子集,必须只包含实际集合中的 TRUE 位。换句话说,如果它是子集上的 TRUE 位,那么它必须是实际集合上的 TRUE 位。(如果子集上的第三位为 1,那么它在实际集合中必须为 1)

您可以使用 来检查它&,因为在您操作&并获得与键完全相同的值之后,您知道该键是实际集合的子集。

1 & 13 is 1 //00001 是 10101 的子集

4 & 13 is 4 //00100 是 10101 的子集

而不是实际集合的一半或一半子集呢?

2 & 13 为 0 //00010 不是 10101 的子集

3 & 13 is 1 //00011 不是 10101 的子集,因为第二位不是 TRUE

看?is的结果&必须与键相同。现在是节目时间

int main(){
    map < int , string > myMap;
    myMap[13] = "Hello"; //00010101
    myMap[36] = "Good Bye"; //00100100
    int key;
    cin >> key;
    for(auto it = myMap.cbegin(); it != myMap.cend(); ++it){
        if((key & (*it).first) == key){ //Check if subset
            cout << (*it).second << endl; //print if subset
        }
    }
    
    return 0;
}

就这样吧,希望对你有帮助。

读取源代码cbegin , bitset 操作符

于 2016-03-24T03:47:25.507 回答