1

我希望就这个问题得到一些专家的建议。

我有两个文本文件,一个很大(~ GB),另一个很小(~ MB)。这些文件基本上每行都有信息。我可以说较大的文件包含有关较小文件的信息子集。文件中的每一行都组织为由空格分隔的元组,通过查看这两个文件中的一个或多个列来找到差异。这两个文件都基于此类列之一(文档 ID)进行排序。

我通过在文档 ID 和行号上保留索引并在较大文件中随机访问该行以启动差异来实现它。但是这种方法很慢。我想知道这种情况的任何好的机制。

提前致谢。

4

1 回答 1

0

如果已知文件按相同的键以相同的顺序排序,并且共享公共键的行应该完全匹配,那么comm可能就是您想要的 - 它具有允许您仅显示那些行的标志在两个文件之间是通用的,或者在一个文件中但不在另一个文件中的行。

于 2012-07-20T14:35:36.107 回答