我有一个 fastq 文件,其中包含超过 1 亿次读取和 10000 长的基因组序列
我想从 fastq 文件中取出序列并在允许 3 个不匹配的情况下在基因组序列中搜索
我尝试使用 awk 以这种方式从 fastq 文件中获取序列:
1.fq(几行)
@DH1DQQN1:269:C1UKCACXX:1:1101:1207:2171 1:N:0:TTAGGC NATCCCCATCCTCTGCTTGCTTTTCGGGATATGTTGTAGGATTCTCAGC
+
1=ADBDDHD;F>GF@FFEFGGGIAEEI?D9DDHHIGAAF:BG39?BB
@DH1DQQN1:269:C1UKCACXX:1:1101:1095:2217 1:N:0:TTAGGC TAGGATTTCAAATGGGTCGAGGTGGTCCGTTAGGTATAGGGGCAACAGG
+
??AABDD4C:DDDI+C:C3@:C):1?*):?)?################
$ awk 'NR%4==2' 1.fq
NATCCCCATCCTCTGCTTGCTTTTCGGGATATGTTGTAGGATTCTCAGC TAGGATTTCAAATGGGTCGAGGTGGTCCGTTAGGTATAGGGGCAACAGG
我有文件中的所有序列,现在我想获取每一行序列并在允许 3 个不匹配的情况下在基因组序列中搜索,如果找到则打印序列
例子:
基因组序列文件:
GGGGAGGAATATGATTTACAGTTTATTTTTCAACTGTGCAAAATAACCTTAACTGCAGACGTTATGACATACATACATTCTATGAATTCCACTATTTTGGAGGACTGGAATTTTGGTCTACAACCTCCCCCAGGAGGCACACTAGAAGATACTTATAGGTTGTAACCCAGGCAATTGCTTGTCAAAAACATACA
搜索序列文件:
GGGGAGGAATATGAT
GGGGAGGAATATGAA
GGGGAGGAATGCC
TCAAAAACATAGG
TCAAAAACATGGG
输出文件:
GGGGAGGAATATGAT 0#0错配精确序列
GGGGAGGAATATGAA 1 # 1 不匹配
GGGGAGGAATATGCC 2 #2 不匹配
TCAAAAACATAGG 2 # 2 不匹配
TCAAAAACATGGG 3 # 3 不匹配