我对包含约 80,000 行的文件有疑问。这是一个23Gb的大文件。我已经设法使用以下命令将类似大小的文件分块:
awk '{fn = NR % 24; print > ("file1_" fn)}' file1
但是,此命令在这个问题文件上停止。问题文件确实有一个非常大的 30 亿字符行(其他文件中最长的行少于 10 亿),我猜这就是问题所在。
我想从文件中删除这条长线并继续,但事实证明这很困难。我虽然简单地使用以下内容就可以了
awk 'length < 1000000000' file1 > file2
但是,这也在 3.5 小时后仍在运行。是否有一种快速浏览文件的方法,并且当一行中的字符数超过例如 10 亿时,它会停止计数并移至下一行?