我有两个包含大量文本的大文件,我要做的是保留文件 A 中的所有行,这些行的字段与文件 B 中的字段匹配。
文件 A 类似于:
Name (tab) # (tab) # (tab) KEYFIELD (tab) Other fields
file BI 设法使用 cut 和 sed 以及其他东西基本上将其归结为一个列表字段。
所以目标是将文件 A 中的所有行保留在第 4 个字段中(它说 KEYFIELD),如果该行的字段与文件 B 中的行之一匹配。(不必完全匹配,所以如果文件 B 有Blah和文件A说Blah_blah,没关系)
我试着做:
grep -f fileBcutdown fileA > outputfile
编辑:好的,我放弃了。我只是强行杀死了它。
有一个更好的方法吗?对于任何关心的人来说,文件 A 为 13.7MB,文件 B 缩减后为 32.6MB。
编辑:这是文件 A 中的示例行:
chr21 33025905 33031813 ENST00000449339.1 0 - 33031813 33031813 0 3 1835,294,104, 0,4341,5804,
文件 B 中的示例行被删减:
ENST00000111111