我有几个非常大的 fastq 文件,我正在使用 cutadapt 来修剪转座子末端序列,这应该会导致剩余 15-17 个碱基对的基因组 DNA。使用 cutadapt 后,fastq 文件的很大一部分是 15-17 个碱基对,但有些序列要长一些(表明它们没有转座子末端序列,它们是我实验的垃圾读取)。
我的问题:我可以在 Linux 中使用命令或脚本来对这些 fastq 文件进行排序并输出一个新的 fastq,其中仅包含 15-17 个碱基对长的读取,同时仍保留通常的 fastq 格式?
作为参考,fastq 格式如下所示:
@D64TDFP1:287:C69APACXX:2:1101:1319:2224 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
DDHHHDHHGIHIIIIE?FFHECGHICHHGH>BD?GHIIIIFHIDG
@D64TDFP1:287:C69APACXX:2:1101:1761:2218 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
FFHHHHHJIJJJJJIIJJJIJHIJJGIJIIIFJ?HHJJJJGHIGI
我在这里发现了一个类似的问题,但似乎从未找到正确的解决方案。有没有人有任何解决方案?