0

我想知道基于不同字段搜索大型数据集的最佳方法是什么。例如,Person 对象定义如下:

Person:
    first name
    last name
    phone numbers

我有 100k 个 Person 类型的对象,我想根据任何字段搜索特定的人?

我尝试使用不同的字段对数据集进行排序,以便可以在 O(logn) 时间内执行搜索操作,但我知道这不是正确的方法。

4

2 回答 2

1

对此没有一个答案,因为正确的答案(很大程度上)取决于您对速度与额外存储的关心程度。

如果您想要绝对的最大速度,并且根本不关心使用额外的存储空间,是的,您可以创建三个数据副本,每个字段按一个排序,输入搜索时,只需使用适当的一个。这可能不像最初出现的那样糟糕。假设您的字符串平均每个大约 10 个字节,因此结构的总大小约为 30 个字节。其中 100'000 份大约为每个副本 3 兆字节,总计约 9 兆字节。有一次,这显然是令人望而却步的——但对于一台现在至少有 8 GB RAM 的典型机器来说,它几乎没有那么糟糕。

假设您排除了这一点,下一个最明显的可能性是在原始数据中建立索引——将原始数据放入一个数组中,然后为每个字段建立一个索引,其中索引中的每个条目都包含一个字段的数据,以及指向主数据的指针/下标。每个索引条目可以是 ~14 字节,因此每个索引大约是整体数据大小的一半。只有三个字段不会节省很多,但确实可以节省一些——而且复杂性成本极低。使用更多字段,您将节省更多。

另一种可能性是将您的索引实现为哈希表。这里的主要优点是您可以避免重复存储日期。例如,如果您计算一个 16 位散列,每个存储桶有 2 个条目,则可以将一个索引存储在 ~512K 字节中。如果存储桶已满,但没有一个条目与您的输入匹配,则您重新散列并尝试另一个存储桶。继续前进,直到找到您的物品或找到一个空桶。

于 2013-10-30T19:50:26.207 回答
1

你可以试试Boost.MultiIndex

Boost Multi-index Containers Library 提供了一个名为 multi_index_container 的类模板,它支持构建容器来维护一个或多个具有不同排序和访问语义的索引:


但是,如果您想自己尝试 - 那么最简单的解决方案之一是:对所有数据使用一个容器,此外还维护多个具有适当索引的地图:

class Indixer
{
    vector<Record> values; // without specific order
    unordered_map<field_type1, Record*> index1; // Search: O(1) average
    unordered_map<field_type2, Record*> index2; // Search: O(1) average
    map<field_type3, Record*> index3; // Search: O(log N) worst case
public:
    // ...
};

您可以使用std::unordered_map以获得 O(1) 平均访问权限。这是示例:

#include <initializer_list>
#include <unordered_map>
#include <functional>
#include <algorithm>
#include <iostream>
#include <iterator>
#include <utility>
#include <vector>
#include <string>
using namespace std;

struct Record
{
    string first_name, last_name;
};

class Indexer
{
    typedef vector<Record> Container;
    typedef Record *Handle;
    Container values;
    unordered_map<string, Handle> first_name_index, last_name_index;

public:
    Indexer(Container &&x) : values(move(x))
    {
        for(auto &x : values)
        {
            first_name_index[x.first_name] = &x;
            last_name_index[x.last_name] = &x;
        }
    }
    const Record &first_name(const string &x)
    {
        return *first_name_index[x];
    }
    const Record &last_name(const string &x)
    {
        return *last_name_index[x];
    }
};

int main()
{
    vector<Record> v = {{"F1", "L1"}, {"F2", "L2"}};
    Indexer x(move(v));

    cout << x.first_name("F1").last_name << endl;
    cout << x.first_name("F2").last_name << endl;

    cout << x.last_name("L1").first_name << endl;
    cout << x.last_name("L2").first_name << endl;
}

输出是:

L1
L2
F1
F2

Coliru 上的现场演示

于 2013-10-30T19:25:29.013 回答