0

我有一个大的 fastq 文件,我想将序列“TTAAGG”添加到我文件中每个序列的末尾(第 2 行,然后每 4 行之后),同时仍保持 fastq 文件格式。例如:这是我开始的第一行:

@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTA
+
FFFHFHGFHAGGIIIII

我希望它打印出来:

@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTATTAAGG
+
FFFHFHGFHAGGIIIII

我想 sed 或 awk 会对此有好处,但我一直无法找到允许我保持 fastq 格式的解决方案。

我试过了:

awk 'NR%4==2 { print $0 "TTAAGG"}' < file_in.fastq > fileout_fastq 

它将 TTAAGG 添加到第二行,然后每隔四行添加一次,但它也删除了其他三行。

有没有人有我可以使用的命令行的建议,或者如果你知道当前可用的包可以做到这一点,请告诉我!

4

1 回答 1

0

用 GNU sed 试试这个:

 sed '2~4s/$/TTAAGG/' file
于 2015-07-14T17:30:13.107 回答