2

我目前正在编写一个使用-outfmt 10Blast 选项的库,它为您提供 CSV 而不是人类可读的格式。

tblastn -db dmel_a -query somequery.faa -outfmt 10

问题是,我想访问 db 源文件,以便在处理后提取一些序列。我知道如何做到这一点的唯一方法是使用删除-outfmt 10并运行两次爆炸。然后我解析人类可读的输出,以显示以下内容:

Database: Source.fas

但是,只有title在创建数据库时未指定时才有效makeblastdb。无论如何,stitleofoutfmt 10似乎是 fasta 标题行。我不能只查找数据库名称然后查找 a .fna, .fas, .faa,因为您可以将数据库命名为与源文件不同的名称。

是否有另一种方法可以从爆炸数据库名称中提取 fasta 源文件?outfmt我在选项列表中没有看到一个。还是我今天瞎了?

4

1 回答 1

0

找到了一个基于 Biostar 问题的解决方案,以及一篇抨击的生物信息学博客文章。如果您的 fasta 不完全遵循 NCBI 命名,则需要 Blast+ 2.2.28。

创建爆炸数据库时,请使用该-parse_seqids标志。然后用blastdbcmd,可以提取出一个范围的序列

blastdbcmd -db t/blastTest/dmel -range 1-10 -entry some_seq_id
于 2013-06-24T16:28:07.997 回答