3

我有大肠杆菌的 Illumina 配对末端读数,用于创建草稿组装 (SPAdes)。我现在的任务是创建将与 Pilon 一起使用的输入 BAM 文件——它用于改进装配草图。

我决定使用此处的文档来使用 BWA:http: //bio-bwa.sourceforge.net/bwa.shtml#3

计划创建参考基因组的索引,创建比对,然后转换为 BAM 文件。

这是我用来索引参考的命令:

bwa index -p bwa_indices/B055 temp/spades/scaffolds.fasta

此命令输出以下文件:B055.amb B055.ann B055.bwt B055.pac B055.sa

下一步是生成对齐文件——为此我使用了以下命令:

bwa aln -t 20 temp/spades/scaffolds.fasta temp/spades/corrected/B055_S5_R1_filtered_1P.fastq.00.0_0.cor.fastq.gz > bwa_indices/B055_R1.sai
#bwa aln -t 20 temp/spades/scaffolds.fasta temp/spades/corrected/B055_S5_R1_filtered_2P.fastq.00.0_0.cor.fastq.gz > bwa_indices/B055_R2.sai

运行第一个命令后,我收到以下输出:

[bwa_aln] 17bp reads: max_diff = 2
[bwa_aln] 38bp reads: max_diff = 3
[bwa_aln] 64bp reads: max_diff = 4
[bwa_aln] 93bp reads: max_diff = 5
[bwa_aln] 124bp reads: max_diff = 6
[bwa_aln] 157bp reads: max_diff = 7
[bwa_aln] 190bp reads: max_diff = 8
[bwa_aln] 225bp reads: max_diff = 9
[bwa_aln] fail to locate the index

最后一行让我有些恼火。有一个输出文件(B055_R1.sai),但它是空的。

我可以清楚地看到,在我的对齐命令中,没有引用以前创建的任何索引文件,但是当我查看文档时(http://bio-bwa.sourceforge.net/bwa.shtm),我看不到引用任何索引文件的选项。谷歌搜索一下,我找到了一个网站,该网站说我需要将我的参考 fasta 文件与索引文件放在同一目录中,我什至将我的草稿程序集 fasta 文件的名称从scaffolds.fasta 更改为 B055.fasta - 但是无济于事。我还解压缩了 fastq.gz 文件并将扩展名从 fastq 更改为 fq——所有这些都遇到了不成功的结果。这些可能仍然是问题,但在我看来,在最后一次 bwa aln 调用中引用索引文件是最紧迫的问题。

谁能给我指出正确的方向?我正在使用 BWA 版本:0.7.5a-r405(我还安装了最新版本(版本:0.7.12-r1039),没有任何改进),CentOS 6.7,具有 34 个内核和大量内存。

先感谢您。

4

2 回答 2

0

基于此讨论,我认为您应该使用它bwa mem来执行对齐。

首先,生成索引文件:

# with this the index file will be in the same dir of your reference
bwa index path/to/your/index/scaffolds.fasta

然后执行对齐:

bwa mem \
    path/to/your/index/scaffolds.fasta \
    /path/to/R1.fastq.gz \
    /path/to/R2.fastq.gz | samtools view -1 -bS - > youBamFile.bam

您可以将代码放在 bash 脚本中或在同一行中键入所有内容,如下所示:

bwa mem path/to/your/index/scaffolds.fasta /path/to/R1.fastq.gz /path/to/R2.fastq.gz | samtools view -1 -bS - > youBamFile.bam

说明:

  • bwa mem:对齐您的双端读取并将其通过管道传输到 samtools 程序。

  • samtools view -1 -bS: 将您的 sam 文件排序并压缩为 bam 格式。

我没有测试该命令,但它可能会起作用。

于 2016-09-08T21:03:08.530 回答
0

根据其他论坛中某人的一些建议,我更改了文件的名称,以使它们全面一致。

mkdir -p bwa_indices
bwa index -p B055 -a is B055.fa
bwa aln -t 20 B055.fa ../temp/spades/corrected/B055_S5_R1_filtered_1P.fq > B055_R1.sai

但是,我仍然收到错误消息。我相信这是一个过时/不正确的文档问题。

文档(http://bio-bwa.sourceforge.net/bwa.shtml#3)具有以下对齐(注意 in.db.fasta

aln     bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-M misMsc] [-O gapOsc] [-E gapEsc] [-q trimQual] <in.db.fasta> <in.query.fq> > <out.sai> 

我一直在使用以下内容(我尝试了 .fa 和 .fasta 扩展名):

bwa aln -t 20 B055.fa B055_R1_1P.fq  > B055_R1.sai

我删除了 .fa 扩展名,它运行了。

bwa aln -t 20 B055 B055_R1_1P.fq  > B055_R1.sai
于 2016-09-09T13:08:30.733 回答