我正在运行独立的命令行爆炸以将许多查询序列与大型数据库核苷酸序列对齐。我可以修改blastn程序的命令行参数来改变匹配/不匹配分数等各种参数。
我想知道 - 对于 blastn 输出的“位分数”,比较具有相同查询和数据库序列但不同匹配/不匹配参数的对齐的位分数是否有意义?我正在尝试评估爆破在各种参数值下的表现如何,但我想确保所有内容都在公平的基础上进行比较。谢谢。
我正在运行独立的命令行爆炸以将许多查询序列与大型数据库核苷酸序列对齐。我可以修改blastn程序的命令行参数来改变匹配/不匹配分数等各种参数。
我想知道 - 对于 blastn 输出的“位分数”,比较具有相同查询和数据库序列但不同匹配/不匹配参数的对齐的位分数是否有意义?我正在尝试评估爆破在各种参数值下的表现如何,但我想确保所有内容都在公平的基础上进行比较。谢谢。
我不清楚为什么您认为比较位分数可以让您了解 BLAST 的表现如何。通常的做法
不幸的是,关于 BLAST 和其他比对程序的大部分工作都是基于查看局部的、无间隙的比对,并凭经验将该理论扩展到间隙比对。特别是,位分数的计算方式如下:
S' = ( lambda * S - ln(K) ) / ln(2)
在上面的公式中,K 和 lambda 是替换矩阵的常数,S 是分数(替换分数和差距分数的总和),S' 是位分数。这意味着您的位分数肯定会因改变间隙打开/间隙扩展参数而改变,这意味着您的比较无效。这是一个不幸的结果,因为几乎没有关于间隙对齐的理论,因此必须根据经验测量给定系统的最佳间隙分数。
因为位分数不可比较,我建议您根据不涉及对齐分数的备用数据集进行评估。例如,如果我对用于比较蛋白质序列的最佳间隙打开/间隙扩展参数感兴趣,我可以查看已知结构的蛋白质并根据其进行比对的能力评估每个参数集,使其具有结构意义。这避免了完全比较对齐分数,这很好,因为单独比较位分数显然没有用。
我不确定你能做到这一点。你真的需要改变匹配/不匹配参数吗?你的目标是什么?
位分数没有可比性并不一定是真的。来自 NCBI 网站上的 BLAST 文档:
“位分数被归一化,这意味着即使使用了不同的评分矩阵,也可以比较来自不同对齐的位分数。”
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook&part=ch16