c++ - 当 95% 的情况下的值是 0 或 1 时，对非常大的数组进行随机访问的任何优化？

Question

对非常大的数组的随机访问是否有任何可能的优化（我目前使用uint8_t，我在问什么更好）

uint8_t MyArray[10000000];

当数组中任意位置的值为

95%的情况为0或1 ，
2在4%的情况下，
在其他1%的情况下，在3到255之间？

那么，有什么比uint8_t数组更好的呢？应该尽可能快地以随机顺序循环整个数组，这对 RAM 带宽来说非常沉重，因此当有多个线程同时为不同的数组执行此操作时，当前整个 RAM 带宽很快就饱和了。

我问是因为拥有如此大的数组（10 MB）感觉非常低效，而实际上除了 5% 之外，几乎所有的值都是 0 或 1。所以当数组中所有值的 95% 时实际上只需要 1 位而不是 8 位，这将减少内存使用量几乎一个数量级。感觉必须有一个内存效率更高的解决方案，这将大大减少所需的 RAM 带宽，因此随机访问也明显更快。

score 155 · Accepted Answer

想到的一个简单的可能性是为常见情况保留一个每个值 2 位的压缩数组，并为每个值保留一个单独的 4 字节（原始元素索引为 24 位，实际值为 8 位，所以(idx << 8) | value)）排序数组其他的。

查找值时，首先在 2bpp 数组中查找 (O(1))；如果您找到 0、1 或 2，这就是您想要的值；如果你找到 3 这意味着你必须在辅助数组中查找它。在这里，您将执行二进制搜索以查找您感兴趣的索引左移 8（O(log(n)，n 较小，因为这应该是 1%），并从 4-字节的东西。

std::vector<uint8_t> main_arr;
std::vector<uint32_t> sec_arr;

uint8_t lookup(unsigned idx) {
    // extract the 2 bits of our interest from the main array
    uint8_t v = (main_arr[idx>>2]>>(2*(idx&3)))&3;
    // usual (likely) case: value between 0 and 2
    if(v != 3) return v;
    // bad case: lookup the index<<8 in the secondary array
    // lower_bound finds the first >=, so we don't need to mask out the value
    auto ptr = std::lower_bound(sec_arr.begin(), sec_arr.end(), idx<<8);
#ifdef _DEBUG
    // some coherency checks
    if(ptr == sec_arr.end()) std::abort();
    if((*ptr >> 8) != idx) std::abort();
#endif
    // extract our 8-bit value from the 32 bit (index, value) thingie
    return (*ptr) & 0xff;
}

void populate(uint8_t *source, size_t size) {
    main_arr.clear(); sec_arr.clear();
    // size the main storage (round up)
    main_arr.resize((size+3)/4);
    for(size_t idx = 0; idx < size; ++idx) {
        uint8_t in = source[idx];
        uint8_t &target = main_arr[idx>>2];
        // if the input doesn't fit, cap to 3 and put in secondary storage
        if(in >= 3) {
            // top 24 bits: index; low 8 bit: value
            sec_arr.push_back((idx << 8) | in);
            in = 3;
        }
        // store in the target according to the position
        target |= in << ((idx & 3)*2);
    }
}

对于您建议的数组，第一个数组需要 10000000 / 4 = 2500000 字节，第二个数组需要 10000000 * 1% * 4 B = 400000 字节；因此 2900000 字节，即小于原始数组的三分之一，并且最常用的部分都保存在内存中，这应该有利于缓存（它甚至可能适合 L3）。

如果您需要超过 24 位寻址，则必须调整“辅助存储”；扩展它的一种简单方法是使用 256 元素指针数组来切换索引的前 8 位并转发到如上所述的 24 位索引排序数组。

快速基准测试

#include <algorithm>
#include <vector>
#include <stdint.h>
#include <chrono>
#include <stdio.h>
#include <math.h>

using namespace std::chrono;

/// XorShift32 generator; extremely fast, 2^32-1 period, way better quality
/// than LCG but fail some test suites
struct XorShift32 {
    /// This stuff allows to use this class wherever a library function
    /// requires a UniformRandomBitGenerator (e.g. std::shuffle)
    typedef uint32_t result_type;
    static uint32_t min() { return 1; }
    static uint32_t max() { return uint32_t(-1); }

    /// PRNG state
    uint32_t y;

    /// Initializes with seed
    XorShift32(uint32_t seed = 0) : y(seed) {
        if(y == 0) y = 2463534242UL;
    }

    /// Returns a value in the range [1, 1<<32)
    uint32_t operator()() {
        y ^= (y<<13);
        y ^= (y>>17);
        y ^= (y<<15);
        return y;
    }

    /// Returns a value in the range [0, limit); this conforms to the RandomFunc
    /// requirements for std::random_shuffle
    uint32_t operator()(uint32_t limit) {
        return (*this)()%limit;
    }
};

struct mean_variance {
    double rmean = 0.;
    double rvariance = 0.;
    int count = 0;

    void operator()(double x) {
        ++count;
        double ormean = rmean;
        rmean     += (x-rmean)/count;
        rvariance += (x-ormean)*(x-rmean);
    }

    double mean()     const { return rmean; }
    double variance() const { return rvariance/(count-1); }
    double stddev()   const { return std::sqrt(variance()); }
};

std::vector<uint8_t> main_arr;
std::vector<uint32_t> sec_arr;

uint8_t lookup(unsigned idx) {
    // extract the 2 bits of our interest from the main array
    uint8_t v = (main_arr[idx>>2]>>(2*(idx&3)))&3;
    // usual (likely) case: value between 0 and 2
    if(v != 3) return v;
    // bad case: lookup the index<<8 in the secondary array
    // lower_bound finds the first >=, so we don't need to mask out the value
    auto ptr = std::lower_bound(sec_arr.begin(), sec_arr.end(), idx<<8);
#ifdef _DEBUG
    // some coherency checks
    if(ptr == sec_arr.end()) std::abort();
    if((*ptr >> 8) != idx) std::abort();
#endif
    // extract our 8-bit value from the 32 bit (index, value) thingie
    return (*ptr) & 0xff;
}

void populate(uint8_t *source, size_t size) {
    main_arr.clear(); sec_arr.clear();
    // size the main storage (round up)
    main_arr.resize((size+3)/4);
    for(size_t idx = 0; idx < size; ++idx) {
        uint8_t in = source[idx];
        uint8_t &target = main_arr[idx>>2];
        // if the input doesn't fit, cap to 3 and put in secondary storage
        if(in >= 3) {
            // top 24 bits: index; low 8 bit: value
            sec_arr.push_back((idx << 8) | in);
            in = 3;
        }
        // store in the target according to the position
        target |= in << ((idx & 3)*2);
    }
}

volatile unsigned out;

int main() {
    XorShift32 xs;
    std::vector<uint8_t> vec;
    int size = 10000000;
    for(int i = 0; i<size; ++i) {
        uint32_t v = xs();
        if(v < 1825361101)      v = 0; // 42.5%
        else if(v < 4080218931) v = 1; // 95.0%
        else if(v < 4252017623) v = 2; // 99.0%
        else {
            while((v & 0xff) < 3) v = xs();
        }
        vec.push_back(v);
    }
    populate(vec.data(), vec.size());
    mean_variance lk_t, arr_t;
    for(int i = 0; i<50; ++i) {
        {
            unsigned o = 0;
            auto beg = high_resolution_clock::now();
            for(int i = 0; i < size; ++i) {
                o += lookup(xs() % size);
            }
            out += o;
            int dur = (high_resolution_clock::now()-beg)/microseconds(1);
            fprintf(stderr, "lookup: %10d µs\n", dur);
            lk_t(dur);
        }
        {
            unsigned o = 0;
            auto beg = high_resolution_clock::now();
            for(int i = 0; i < size; ++i) {
                o += vec[xs() % size];
            }
            out += o;
            int dur = (high_resolution_clock::now()-beg)/microseconds(1);
            fprintf(stderr, "array:  %10d µs\n", dur);
            arr_t(dur);
        }
    }

    fprintf(stderr, " lookup |   ±  |  array  |   ±  | speedup\n");
    printf("%7.0f | %4.0f | %7.0f | %4.0f | %0.2f\n",
            lk_t.mean(), lk_t.stddev(),
            arr_t.mean(), arr_t.stddev(),
            arr_t.mean()/lk_t.mean());
    return 0;
}

（代码和数据总是在我的 Bitbucket 中更新）

上面的代码填充了一个 10M 元素数组，其中随机数据分布为他们帖子中指定的 OP，初始化我的数据结构，然后：

使用我的数据结构随机查找 10M 元素
通过原始数组做同样的事情。

（请注意，在顺序查找的情况下，数组总是以巨大的优势获胜，因为它是您可以做的最适合缓存的查找）

最后两个块重复 50 次并计时；最后，计算和打印每种查找类型的平均值和标准差，以及加速比（lookup_mean/array_mean）。

-O3 -static我在 Ubuntu 16.04 上用 g++ 5.4.0（加上一些警告）编译了上面的代码，并在一些机器上运行它；他们中的大多数都在运行 Ubuntu 16.04，一些是较旧的 Linux，一些是较新的 Linux。在这种情况下，我认为操作系统根本不应该相关。

            CPU           |  cache   |  lookup (µs)   |     array (µs)  | speedup (x)
Xeon E5-1650 v3 @ 3.50GHz | 15360 KB |  60011 ±  3667 |   29313 ±  2137 | 0.49
Xeon E5-2697 v3 @ 2.60GHz | 35840 KB |  66571 ±  7477 |   33197 ±  3619 | 0.50
Celeron G1610T  @ 2.30GHz |  2048 KB | 172090 ±   629 |  162328 ±   326 | 0.94
Core i3-3220T   @ 2.80GHz |  3072 KB | 111025 ±  5507 |  114415 ±  2528 | 1.03
Core i5-7200U   @ 2.50GHz |  3072 KB |  92447 ±  1494 |   95249 ±  1134 | 1.03
Xeon X3430      @ 2.40GHz |  8192 KB | 111303 ±   936 |  127647 ±  1503 | 1.15
Core i7 920     @ 2.67GHz |  8192 KB | 123161 ± 35113 |  156068 ± 45355 | 1.27
Xeon X5650      @ 2.67GHz | 12288 KB | 106015 ±  5364 |  140335 ±  6739 | 1.32
Core i7 870     @ 2.93GHz |  8192 KB |  77986 ±   429 |  106040 ±  1043 | 1.36
Core i7-6700    @ 3.40GHz |  8192 KB |  47854 ±   573 |   66893 ±  1367 | 1.40
Core i3-4150    @ 3.50GHz |  3072 KB |  76162 ±   983 |  113265 ±   239 | 1.49
Xeon X5650      @ 2.67GHz | 12288 KB | 101384 ±   796 |  152720 ±  2440 | 1.51
Core i7-3770T   @ 2.50GHz |  8192 KB |  69551 ±  1961 |  128929 ±  2631 | 1.85

结果……好坏参半！

一般来说，在大多数这些机器上都有某种加速，或者至少它们是相当的。
阵列真正胜过“智能结构”查找的两种情况是在具有大量缓存且不是特别繁忙的机器上：以上 Xeon E5-1650（15 MB 缓存）是夜间构建机器，目前相当空闲；Xeon E5-2697（35 MB 缓存）是一台用于高性能计算的机器，在空闲时也是如此。确实有道理，原始数组完全适合其巨大的缓存，因此紧凑的数据结构只会增加复杂性。
在“性能范围”的另一端——但阵列再次稍微快一点，有为我的 NAS 提供动力的不起眼的赛扬；它的缓存太少，以至于阵列和“智能结构”都根本不适合它。其他缓存足够小的机器执行类似的操作。
Xeon X5650 必须谨慎使用——它们是非常繁忙的双路虚拟机服务器上的虚拟机；很可能，虽然名义上它有相当数量的缓存，但在测试期间它被完全不相关的虚拟机抢占了好几次。

score 33 · Accepted Answer

另一种选择可能是

检查结果是 0、1 还是 2
如果不定期查找

换句话说，类似：

unsigned char lookup(int index) {
    int code = (bmap[index>>2]>>(2*(index&3)))&3;
    if (code != 3) return code;
    return full_array[index];
}

其中bmap每个元素使用 2 位，值 3 表示“其他”。

这种结构更新起来很简单，多使用了 25% 的内存，但大部分情况下仅在 5% 的情况下查找。当然，像往常一样，这是否是一个好主意取决于许多其他条件，所以唯一的答案是尝试实际使用。

score 23 · Accepted Answer

这更像是一个“长评论”而不是一个具体的答案

除非您的数据是众所周知的，否则我怀疑任何人都可以直接回答您的问题（而且我不知道任何与您的描述相匹配的东西，但是我不知道所有关于所有类型的数据模式的一切各种用例）。稀疏数据是高性能计算中的常见问题，但它通常是“我们有一个非常大的数组，但只有一些值是非零的”。

对于像我认为你的那样不为人知的模式，没有人会直接知道哪个更好，这取决于细节：随机访问的随机性 - 系统访问数据项集群还是完全随机的一个统一的随机数生成器。表数据是完全随机的，还是有 0 的序列然后 1 的序列，以及其他值的分散？如果您有相当长的 0 和 1 序列，运行长度编码会很好，但如果您有“0/1 棋盘格”，则不会工作。此外，您必须保留一张“起点”表，以便您可以合理快速地前往相关地点。

我很久以前就知道，一些大型数据库只是 RAM 中的一个大表（本例中的电话交换用户数据），其中一个问题是处理器中的缓存和页表优化非常无用。呼叫者很少与最近呼叫某人相同，没有任何类型的预加载数据，它只是纯粹随机的。大页表是该类型访问的最佳优化。

在很多情况下，在“速度和小尺寸”之间做出妥协是您在软件工程中必须选择的事情之一[在其他工程中，这不一定是妥协]。因此，“为更简单的代码浪费内存”通常是首选。从这个意义上说，“简单”的解决方案很可能在速度上更好，但是如果您对 RAM 有“更好的”使用，那么优化表的大小将为您提供足够的性能和大小的良好改进。有很多不同的方法可以实现这一点 - 正如评论中所建议的那样，存储两个或三个最常见值的 2 位字段，然后是其他值的一些替代数据格式 - 哈希表将是我的第一种方法，但列表或二叉树也可以工作 - 再次，这取决于您的“不是 0、1 或 2”在哪里的模式。同样，这取决于表中的值是如何“分散”的——它们是在集群中还是更均匀分布的模式？

但一个问题是您仍在从 RAM 中读取数据。然后，您将花费更多代码来处理数据，包括一些代码来处理“这不是一个常见的值”。

大多数常见压缩算法的问题在于它们基于解包序列，因此您无法随机访问它们。并且一次将大数据拆分为 256 个条目并将 256 个条目解压缩为 uint8_t 数组、获取所需数据然后丢弃未压缩数据的开销极不可能给您带来好处性能——当然，假设这很重要。

最后，您可能必须在评论/答案中实施一个或几个想法来测试，看看它是否有助于解决您的问题，或者内存总线是否仍然是主要限制因素。

score 13 · Accepted Answer

我过去所做的是在位集前面使用哈希图。

与 Matteo 的答案相比，这将空间减半，但如果“异常”查找速度很慢（即有很多异常），则可能会更慢。

然而，通常，“缓存为王”。

score 11 · Accepted Answer

除非您的数据有规律，否则不太可能对速度或大小进行任何合理的优化，并且 - 假设您的目标是一台普通计算机 - 10 MB 无论如何也没什么大不了的。

您的问题中有两个假设：

数据存储不佳，因为您没有使用所有位
更好地存储它会使事情变得更快。

我认为这两个假设都是错误的。在大多数情况下，存储数据的适当方式是存储最自然的表示。在您的情况下，这就是您所追求的：0 到 255 之间的数字的字节。任何其他表示都会更复杂，因此 - 所有其他事情都相同 - 更慢且更容易出错。要偏离这个一般原则，您需要一个比 95% 数据上可能存在的六个“浪费”位更有力的理由。

对于您的第二个假设，当且仅当更改数组的大小会显着减少缓存未命中时，它才是正确的。这是否会发生只能通过分析工作代码来明确确定，但我认为它不太可能产生重大影响。因为无论哪种情况，您都将随机访问数组，因此处理器将难以知道在任何一种情况下要缓存和保留哪些数据位。

score 8 · Accepted Answer

如果数据和访问是均匀随机分布的，那么性能可能将取决于访问的哪一部分避免了外层缓存未命中。优化这将需要知道什么大小的数组可以可靠地容纳在缓存中。如果您的缓存足够大以容纳每五个单元格一个字节，那么最简单的方法可能是让一个字节保存 0-2 范围内的五个以三为基的编码值（有 5 个值的 243 种组合，这样将适合一个字节），以及一个 10,000,000 字节数组，只要 base-3 值指示“2”，就会查询该数组。

如果缓存不是那么大，但每 8 个单元可以容纳一个字节，那么就不可能使用一个字节值从 8 个 base-3 值的所有 6,561 个可能组合中进行选择，但由于将 0 或 1 更改为 2 将导致不必要的查找，正确性不需要支持所有 6,561。相反，人们可以关注 256 个最“有用”的值。

特别是如果 0 比 1 更常见，或者反之亦然，一个好的方法可能是使用 217 个值来编码包含 5 个或更少 1 的 0 和 1 的组合，使用 16 个值来编码 xxxx0000 到 xxxx1111，使用 16 个值来编码 0000xxxx 到1111xxxx，一个用于 xxxxxxxx。对于人们可能发现的任何其他用途，将保留四个值。如果数据按描述随机分布，则所有查询中的一小部分将命中仅包含 0 和 1 的字节（在所有 8 组的大约 2/3 中，所有位都是 0 和 1，大约 7/8那些将有六个或更少的 1 位）；绝大多数没有出现在包含四个 x 的字节中，并且有 50% 的机会出现在 0 或 1 上。因此，只有大约四分之一的查询需要大数组查找。

如果数据是随机分布的，但缓存不够大，无法处理每八个元素一个字节，则可以尝试使用这种方法，每个字节处理八个以上的项目，但除非存在强烈的 0 或 1 偏差，无需在大数组中进行查找即可处理的值的比例将随着每个字节处理的数量的增加而缩小。

score 7 · Accepted Answer

我将补充@o11c的答案，因为他的措辞可能有点令人困惑。如果我需要压缩最后一点和 CPU 周期，我会执行以下操作。

我们将从构建一个平衡的二叉搜索树开始，它包含 5% 的“其他”情况。对于每次查找，您都会快速遍历树：您有 10000000 个元素：其中 5% 在树中：因此树数据结构包含 500000 个元素。在 O(log(n)) 时间内进行此操作，可为您提供 19 次迭代。我不是这方面的专家，但我想那里有一些内存高效的实现。让我们猜测一下：

平衡树，因此可以计算子树位置（索引不需要存储在树的节点中）。与堆（数据结构）存储在线性内存中的方式相同。
1 字节值（2 到 255）
索引 3 个字节（10000000 需要 23 位，适合 3 个字节）

总计，4 个字节：500000*4 = 1953 kB。适合缓存！

对于所有其他情况（0 或 1），您可以使用位向量。请注意，您不能忽略 5% 的其他随机访问情况：1.19 MB。

这两者的组合使用大约 3,099 MB。使用这种技术，您将节省 3.08 倍的内存。

但是，这并没有击败@Matteo Italia（使用2.76 MB）的答案，很遗憾。有什么我们可以做的额外的吗？最消耗内存的部分是树中 3 个字节的索引。如果我们可以将其降低到 2，我们将节省 488 kB，总内存使用量将为：2.622 MB，更小！

我们如何做到这一点？我们必须将索引减少到 2 个字节。同样，10000000 需要 23 位。我们需要能够丢弃 7 位。我们可以通过将 10000000 个元素的范围划分为 78125 个元素的 2^7 (=128) 个区域来简单地做到这一点。现在我们可以为每个区域构建一个平衡树，平均有 3906 个元素。选择正确的树是通过将目标索引简单地除以 2^7 （或 bitshift >> 7）来完成的。现在需要存储的索引可以用剩下的 16 位来表示。请注意，需要存储的树的长度会产生一些开销，但这可以忽略不计。另请注意，这种拆分机制减少了遍历树所需的迭代次数，现在减少到 7 次迭代，因为我们丢弃了 7 位：只剩下 12 次迭代。

请注意，理论上您可以重复该过程以切断接下来的 8 位，但这需要您创建 2^15 个平衡树，平均约 305 个元素。这将导致 2.143 MB，只有 4 次迭代来遍历树，与我们开始的 19 次迭代相比，这是一个相当大的加速。

最后的结论是：这比 2 位向量策略要少一点内存使用量，但要实现起来却很困难。但是，如果它可以决定是否安装缓存，那么它可能值得一试。

score 5 · Accepted Answer

如果您只执行读取操作，最好不要将值分配给单个索引，而是分配给索引间隔。

例如：

[0, 15000] = 0
[15001, 15002] = 153
[15003, 26876] = 2
[25677, 31578] = 0
...

这可以通过结构来完成。如果您喜欢 OO 方法，您可能还想定义一个与此类似的类。

class Interval{
  private:
    uint32_t start; // First element of interval
    uint32_t end; // Last element of interval
    uint8_t value; // Assigned value

  public:
    Interval(uint32_t start, uint32_t end, uint8_t value);
    bool isInInterval(uint32_t item); // Checks if item lies within interval
    uint8_t getValue(); // Returns the assigned value
}

现在您只需要遍历一个间隔列表并检查您的索引是否位于其中一个范围内，平均而言，这可能会减少内存密集度，但会消耗更多的 CPU 资源。

Interval intervals[INTERVAL_COUNT];
intervals[0] = Interval(0, 15000, 0);
intervals[1] = Interval(15001, 15002, 153);
intervals[2] = Interval(15003, 26876, 2);
intervals[3] = Interval(25677, 31578, 0);
...

uint8_t checkIntervals(uint32_t item)

    for(int i=0; i<INTERVAL_COUNT-1; i++)
    {
        if(intervals[i].isInInterval(item) == true)
        {
            return intervals[i].getValue();
        }
    }
    return DEFAULT_VALUE;
}

如果您按降序排列间隔，您将增加您要查找的项目较早找到的概率，这会进一步降低您的平均内存和 CPU 资源使用率。

您还可以删除所有大小为 1 的区间。将相应的值放入地图中，仅当在区间中未找到您要查找的项目时才检查它们。这也应该稍微提高平均性能。

score 4 · Accepted Answer

很久很久以前，我只记得...

在大学里，我们的任务是加速光线追踪程序，该程序必须通过算法一遍又一遍地从缓冲区数组中读取。一位朋友告诉我始终使用 4Bytes 的倍数的 RAM 读取。所以我将数组从 [x1,y1,z1,x2,y2,z2,...,xn,yn,zn] 模式更改为 [x1,y1,z1,0,x2,y2,z2 ,0,...,xn,yn,zn,0]。意味着我在每个 3D 坐标后添加一个空字段。经过一些性能测试：它更快。长话短说：从 RAM 中的数组中读取多个 4 字节，也可能从正确的起始位置读取，因此您读取了搜索索引所在的小簇，并从 cpu 中的这个小簇中读取搜索索引。（在您的情况下，您不需要插入填充字段，但概念应该很清楚）

也许其他倍数也可能是新系统的关键。

我不知道这是否适用于您的情况，所以如果它不起作用：对不起。如果它有效，我会很高兴听到一些测试结果。

PS：哦，如果有任何访问模式或附近访问的索引，您可以重用缓存的集群。

PPS：可能是，多重因素更像是 16Bytes 或类似的东西，太久以前了，我记得很清楚。

score 3 · Accepted Answer

看看这个，您可以拆分数据，例如：

一个被索引并表示值 0 的位集（std::vector 在这里很有用）
一个被索引并表示值 1 的位集
值 2 的 std::vector，包含引用该值的索引
其他值的映射（或 std::vector>）

在这种情况下，所有值都出现在给定索引之前，因此您甚至可以删除其中一个位集并表示该值，因为它在其他位集中缺失。

这将为您节省一些内存，但会使最坏的情况变得更糟。您还需要更多的 CPU 能力来进行查找。

一定要测量！

score 2 · Accepted Answer

就像 Mats 在他的评论回答中提到的那样，如果不具体知道您拥有什么样的数据（例如，是否有长时间的 0 等）以及您的访问模式是什么样的，很难说什么是实际上最好的解决方案喜欢（“随机”是指“到处都是”还是只是“不是严格以完全线性的方式”或“每个值恰好一次，只是随机的”或......）。

也就是说，我想到了两种机制：

位数组；即，如果您只有两个值，则可以将数组简单地压缩 8 倍；如果您有 4 个值（或“3 个值 + 其他所有值”），您可以压缩两倍。这可能不值得麻烦并且需要基准测试，特别是如果您有真正的随机访问模式，这些模式会逃脱您的缓存，因此根本不会改变访问时间。
(index,value)或(value,index)表。即，对于 1% 的情况有一个非常小的表，对于 5% 的情况可能有一个表（只需要存储索引，因为它们都具有相同的值），以及最后两种情况的大压缩位数组。而“表”是指允许相对快速查找的东西；即，可能是散列、二叉树等，具体取决于您可用的内容和您的实际需求。如果这些子表适合您的 1 级/2 级缓存，您可能会很幸运。

score 1 · Accepted Answer

我对 C 不是很熟悉，但在C++中，您可以使用unsigned char来表示 0 - 255 范围内的整数。

与需要4 个字节（32 位）的普通int（同样，我来自Java和C++世界）相比，无符号字符需要1 个字节（8 位）。因此它可能会将数组的总大小减少 75%。

score -4 · Accepted Answer

您已经简洁地描述了阵列的所有分布特征；折腾阵列。

您可以使用随机方法轻松替换数组，该方法产生与数组相同的概率输出。

如果一致性很重要（为相同的随机索引生成相同的值），请考虑使用布隆过滤器和/或哈希映射来跟踪重复命中。但是，如果您的数组访问确实是随机的，那么这是完全没有必要的。

c++ - 当 95% 的情况下的值是 0 或 1 时，对非常大的数组进行随机访问的任何优化？

13 回答 13

快速基准测试

Related

Reference