1

我有两个非常大的平面文本文件(每个 > 10 GB)。这些文件由许多行组成 - 每行是一个字符串(大约 80 个字节)分隔符,然后是另一个更大的字符串。第一个字符串类似于第一个文件的唯一键,但可以在第二个文件中重复。所以,我需要得到一个结果文件——它应该包含键(可能像在第二个文件中一样重复)分隔符是第一个文件中的第二个字符串,然后是第二个文件中的第二个字符串。

我正在考虑使用 dict 来存储来自第一个文件的信息: key = someHash(str1), value = position in file 并通过第二个文件进行迭代并将结果打印到第三个文件但我不知道应该是哪个哈希used 和 if 应该使用 以及如何解决可能的冲突?最后如何为这个问题构建有效的(内存+时间)解决方案

4

1 回答 1

0

python 提供的散列被设计为具有加密强度,这意味着,简单来说,它们是处理器密集型的。如果您决定使用脚本解决方案,请参阅此问题以了解其他选项。

于 2013-03-25T13:46:16.553 回答