我有一个不变的大型静态二进制文件(10GB)。
我希望能够将小字符串(每个 15 字节或更低)作为输入,然后确定哪个字符串频率最低。
我知道如果不实际搜索整个二进制文件,我将无法准确确定这一点,所以我知道这将是一个近似值。
构建树/哈希表是不可行的,因为它需要大约 256^15 个字节,这非常多。
我有大约 100GB 的磁盘空间和 8GB 的 RAM 将专用于这项任务,但我似乎找不到任何方法来完成这项任务而无需实际检查文件。
我有尽可能多的时间来准备大二进制文件,然后我需要多次确定哪个是最不频繁的字符串。
有任何想法吗?
谢谢!丹尼尔。
(顺便说一句:如果重要的话,我正在使用 Python)