我正在尝试操作 Fastq 文件。它看起来像这样:
@HWUSI-EAS610:1:1:3:1131#0/1
GATGCTAAGCCCCTAAGGTCATAAGACTGNNANGTC
+
B<ABA<;B@=4A9@:6@96:1??9;>##########
@HWUSI-EAS610:1:1:3:888#0/1
GATAGGACCAAACATCTAACATCTTCCCGNNGNTTC
+
B9>>ABA@B7BB:7?@####################
@HWUSI-EAS610:1:1:4:941#0/1
GCTTAGGAAGGAAGGAAGGAAGGGGTGTTCTGTAGT
+
BBBB:CB=@CB@?BA/@BA;6>BBA8A6A<?A4?B=
...
...
...
@HWUSI-EAS610:1:1:7:1951#0/1
TGATAGATAAGTGCCTACCTGCTTACGTTACTCTCC
+
BB=A6A9>BBB9B;B:B?B@BA@AB@B:74:;8=>7
我的预期输出是:
@HWUSI-EAS610:1:1:3:1131#0/1
GACNTNNCAGTCTTATGACCTTAGGGGCTTAGCATC
@HWUSI-EAS610:1:1:3:888#0/1
GAANCNNCGGGAAGATGTTAGATGTTTGGTCCTATC
@HWUSI-EAS610:1:1:4:941#0/1
ACTACAGAACACCCCTTCCTTCCTTCCTTCCTAAGC
因此,ID 行是以@HWUSI 开头的行(即@HWUSI-EAS610:1:1:7:1951#0/1)。每个ID 之后都有一行及其序列。现在,我想获得一个仅包含每个 ID 及其对应序列的文件,并且该序列应该是反向和互补的。(A=T, T=A, C=G, G=C) 用 Sed I 可以得到所有与命令反向互补的序列
sed -n '2~4p' MYFILE.fq | rev | tr ATCG TAGC
我怎样才能获得相应的ID?