1

我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)

我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。

谢谢!

4

3 回答 3

0

BLAST 可用于比对任何字母表中的字符序列。您可能需要自己实现它,因为大多数公开可用的实现都是针对蛋白质量身定制的,但该算法并不特定于蛋白质或核苷酸序列。

于 2010-09-02T20:35:03.877 回答
0

vmatch 是一个通用的基于后缀树的对齐程序

于 2011-08-08T15:03:29.727 回答
0

你不妨试试 STELLAR:它是一种类星体过滤算法,带有验证步骤。(见这篇论文

对于 <5% 的低编辑距离,它相当快。

于 2012-08-22T07:56:25.943 回答