7

我需要生成一个仅包含唯一随机数且具有单精度的二进制文件。然后,目的是计算该文件的熵,并将其与其他数据集熵一起使用来计算比率 entropy_file/entropy_randUnique。这个值被命名为“随机性”。

我可以在 python 中使用双精度数字执行此操作并将它们插入到set()中,使用struct.pack如下:

    numbers = set()
    while len(numbers) < size:
        numbers.add(struct.pack(precision,random.random()))
    for num in numbers:
        file.write(num)

但是当我更改为单精度时,我不能只更改 pack 方法(这将产生很多相同的数字,而 while 永远不会结束),而且我不能用random. 我已经调查过了numpy,但生成器的工作方式与我理解的相同。我怎样才能在二进制文件中获得 370914252 (这是我最大的测试用例)唯一的 float32 ,即使它们不是随机的,我认为洗牌序列就足够了..

4

1 回答 1

3

最好的办法是生成随机的 32 位整数,然后将它们转换为浮点数。在生成数字时,您需要拒绝无穷大和 NAN 的位表示。

您可以set从整数值而不是浮点值生成您的值,然后在输出上进行转换。您可以使用位图来检测已经使用了哪些整数值,而不是使用集合;这更有可能适合内存,特别是考虑到您指示的最大样本量。

def random_unique_floats(n):
    used = bytearray(0 for i in xrange(2**32 // 8))
    count = 0
    while count < n:
        bits = random.getrandbits(32)
        value = struct.unpack('f', struct.pack('I', bits))[0]
        if not math.isinf(value) and not math.isnan(value):
            index = bits // 8
            mask = 0x01 << (bits & 0x07)
            if used[index] & mask == 0:
                yield value
                used[index] |= mask
                count += 1

for num in random_unique_floats(size):
    file.write(struct.pack('f', num))

请注意,随着您的样本数量接近可能的浮点值数量,运行时间将呈指数增长。

于 2013-11-20T17:00:08.953 回答