我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)
我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。
谢谢!
我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)
我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。
谢谢!
BLAST 可用于比对任何字母表中的字符序列。您可能需要自己实现它,因为大多数公开可用的实现都是针对蛋白质量身定制的,但该算法并不特定于蛋白质或核苷酸序列。
vmatch 是一个通用的基于后缀树的对齐程序
你不妨试试 STELLAR:它是一种类星体过滤算法,带有验证步骤。(见这篇论文)
对于 <5% 的低编辑距离,它相当快。