bioinformatics - 从blast数据库名称中获取fasta源文件

Question

我目前正在编写一个使用-outfmt 10Blast 选项的库，它为您提供 CSV 而不是人类可读的格式。

像

tblastn -db dmel_a -query somequery.faa -outfmt 10

问题是，我想访问 db 源文件，以便在处理后提取一些序列。我知道如何做到这一点的唯一方法是使用删除-outfmt 10并运行两次爆炸。然后我解析人类可读的输出，以显示以下内容：

Database: Source.fas

但是，只有title在创建数据库时未指定时才有效makeblastdb。无论如何，stitleofoutfmt 10似乎是 fasta 标题行。我不能只查找数据库名称然后查找 a .fna, .fas, .faa，因为您可以将数据库命名为与源文件不同的名称。

是否有另一种方法可以从爆炸数据库名称中提取 fasta 源文件？outfmt我在选项列表中没有看到一个。还是我今天瞎了？

score 0 · Accepted Answer

找到了一个基于 Biostar 问题的解决方案，以及一篇抨击的生物信息学博客文章。如果您的 fasta 不完全遵循 NCBI 命名，则需要 Blast+ 2.2.28。

创建爆炸数据库时，请使用该-parse_seqids标志。然后用blastdbcmd，可以提取出一个范围的序列

blastdbcmd -db t/blastTest/dmel -range 1-10 -entry some_seq_id

1 回答 1