0

我正在处理我使用以下方法连接的大型数据集:cat file1.fasta.gz file2.fasta.gz > newfile.fasta.gz

然后我使用: 解压缩新文件gunzip newfile.fasta.gz,以便在一些生物信息学软件中使用它。gunzip 需要很长时间,我离开电脑,稍后再回来。

我担心该过程可能在某些时候失败,留下部分文件。有没有办法确定它newfile.fasta包含完整的解压缩内容newfile.fasta.gz

inb4:“不要离开你的电脑”

4

1 回答 1

0

应该没问题。如果您担心,那么您可以检查文件大小:newfile.fasta.gz 应该是 file1.fasta.gz + file2.fasta.gz 的大小。

由于看起来您已经解压缩了新文件,因此您可以仔细检查每个 fasta 文件中的序列条目数。

$ gunzip -c file1.fasta.gz | grep -c '^>'
$ gunzip -c file2.fasta.gz | grep -c '^>'
$ grep -c '^>' newfile.fasta

或者如果你可以用“grep -c '^>'”代替 wc。

于 2015-09-07T20:59:43.777 回答