我有一个巨大的排序文本文件(1000 万行)。我想将其拆分为每个大小约为 10,000 个的小文件。但是不应该有任何文件的最后一行与任何其他文件的第一行具有相同的第一个字段。换句话说,分割点应该在第 10k 行附近,但是分割前的行的第一个字段应该与之后的行不同。
我想到了一个乏味的方法。在另一个文件中,以某种方式打印所有可能的拆分位置,其中 lineN 和 lineN+1 具有不同的第一个字段。然后编写程序仅选择那些接近 10k 的分割点。但现在我不能使用该split
命令,因为它只允许每个拆分文件的固定行。
如何解决问题?