1

我想使用 AMOScmp 来分析 illumina 配对端数据。AMOScmp 需要相同数量的配对文件来构建 .afg 文件。原始 fq 文件已配对。在我通过质量、重复序列和人类 DNA 控制分别传递 fq 文件后,我发现配对的末端 fa 文件具有不同的读取数。我想从配对的末端读取中删除未配对的读取,以获得两个具有相同读取数的 fa 文件。有人有脚本或知道什么软件可以帮助我解决问题吗?

4

1 回答 1

3

使用trimmomatic实用程序来执行此操作。这是一个质量修整程序,将输出 4 个文件:R1_paired、R2_paired、R1_singles、R2_singles

如果您只需要匹配对,那么只需使用单个质量属性运行它,例如:

明伦:20

注意:您应该知道,如果您稍后需要对两个配对的结束文件进行洗牌,则在经过一定次数的读取后,两个“配对”文件之间的序列奇偶校验将不会是 1:1。我怀疑这是由于 trimmomatic 的线程。如果您担心它,请务必将线程设置为 1。不确定这是否是一个解决方案,因此请通过查看两个文件中的随机行来验证结果。从两个文件的开头、中间和结尾选择行。然后比较序列 ID 行:

头-n 1000 R1_paired.fastq | 尾-n 4

头-n 1000 R2_paired.fastq | 尾-n 4

这是一个使用两个成对的末端 FASTQ 文件的示例(注意:假设输入文件名为 R1.fastq 和 R2.fastq,并且 trimmomatic-0.30.jar 位于本地目录中,否则您需要将路径供java跟随)

java -jar ./trimmomatic-0.30.jar PE -threads 1 -phred33 R1.fastq R2.fastq R1_paired.fastq R1_singles.fastq R2_paired.fastq R2_singles.fastq MINLEN:20

于 2014-12-28T22:05:04.803 回答