我修改了如下的一段代码来解析来自 BLAST XML 输出的所需信息。
import csv
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(open('PGblast.xml', 'rU'))
output = csv.writer(open('PGhit.csv','w'), delimiter =',',
quoting=csv.QUOTE_NONNUMERIC)
output.writerow(["Query","Hit ID", "Hit Def", "E-Value"])
E_VALUE_THRESH = 0.00000000000000001
for blast_record in blast_records:
for alignment in blast_record.alignments:
for hsp in alignment.hsps:
if hsp.expect < E_VALUE_THRESH:
output.writerow([blast_record.query[:8],
alignment.hit_id, alignment.hit_def,hsp.expect])
blast_records.close()
该代码允许我解析 E 值被截断的命中。但是,我希望仅解析 BLAST XML 输出中的最佳命中或前 3 个命中,因为 BLAST 输出文件的大小很大。
解析每个命中结果将花费大量时间来处理,实际上我不希望所有命中结果。
有人可以帮我吗?